tailieunhanh - Một số đặc trưng trong tóm tắt văn bản báo mạng điện tử tiếng Việt

Theo quan điểm của các nhà nghiên cứu về tóm tắt văn bản thì bản tóm tắt là một bản rút gọn của một hay nhiều văn bản gốc thông qua việc lựa chọn và tổng quát hóa các khái niệm quan trọng. Bài viết này sẽ nghiên cứu một số đặc trưng riêng, trên cơ sở đó áp dụng đánh giá các đặc trưng đó trong trích rút câu phục vụ tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử. | Kỷ yếu Hội nghị Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Hà Nội ngày 09-10 08 2018 DOI MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT Lê Ngọc Thắng1 2 Lê Quang Minh2 1 Cục Tham mưu An ninh Bộ Công an 2 Viện Công nghệ thông tin Đại học Quốc gia Hà Nội lengocthang@ quangminh@ TÓM TẮT Tóm tắt văn bản tự động đã được nghiên cứu từ những năm 1950 của thế kỷ 20. Tóm tắt tự động văn bản tiếng Việt mới chỉ được tập trung nghiên cứu từ những năm đầu của thế kỷ 21. Về cơ bản những nghiên cứu này là ngắn hạn đơn lẻ và tập trung vào hướng trích rút qua việc sử dụng những đặc trưng của ngôn ngữ tiếng Anh để áp dụng vào mô hình tóm tắt tự động văn bản tiếng Việt. Phần lớn các kết quả thử nghiệm đều được thực hiện trên thể loại văn bản báo mạng điện tử. Tuy nhiên cho đến nay chưa có nhiều nghiên cứu về đặc trưng ngôn ngữ của thể loại văn bản báo mạng điện tử tiếng Việt phục vụ cho bài toán trích rút câu. Bài báo này sẽ nghiên cứu một số đặc trưng riêng trên cơ sở đó áp dụng đánh giá các đặc trưng đó trong trích rút câu phục vụ tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử. Từ khóa tóm tắt văn bản tự động tóm tắt văn bản tiếng Việt báo mạng điện tử từ khóa. I. GIỚI THIỆU Theo quan điểm của các nhà nghiên cứu về tóm tắt văn bản thì bản tóm tắt là một bản rút gọn của một hay nhiều văn bản gốc thông qua việc lựa chọn và tổng quát hóa các khái niệm quan trọng. Theo Mani và cộng sự 1 thì tóm tắt văn bản là quá trình trích lược chắt lọc những thông tin quan trọng nhất từ văn bản gốc để tạo ra một phiên bản giản lược sử dụng cho các mục đích hoặc nhiệm vụ khác nhau. Thông thường một văn bản tóm tắt có độ dài không quá nửa so với văn bản gốc. Có rất nhiều phương pháp tiếp cận về tóm tắt văn bản qua đó cũng có rất nhiều cách phân loại các hệ thống tóm tắt văn bản tuy nhiên thông thường người ta hay sử dụng cách phân loại theo kết quả đầu ra output . Đối với cách phân loại này

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.