tailieunhanh - Thực nghiệm tóm tắt rút trích văn bản tiếng Việt

Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT Lâm Nhựt Khang Phan Chí Khang Trần Bảo Ngọc Khoa Công nghệ Thông tin và Truyền Thông Trường Đại học Cần Thơ lnkhang@ phanchikhang7@ baongocst96@ TÓM TẮT Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu súc tích nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam. Tập dữ liệu này được dùng để đào tạo bộ từ vựng cho tiếng Việt và là tập dữ liệu mẫu dùng trong bài toán tóm tắt văn bản. Phương pháp centroid-based và mô hình GRU-RNN 2 chiều được áp dụng để xây dựng tóm tắt rút trích. Từ khóa Tóm tắt rút trích nhúng từ centroid-based GRU-RNN. I. GIỚI THIỆU Josef Steinberger và Karel Ježek 1 định nghĩa tóm tắt văn bản tự động là quá trình nhận vào một văn bản gốc và trình bày lại các nội dung cốt lõi của văn bản gốc tùy theo nhu cầu của người dùng . .Đầu tiên văn bản gốc sẽ được đọc và xác định nội dung. Sau đó các ý chính của văn bản gốc được trích xuất và trình bày ngắn gọn trong một bản tóm tắt . Bài toán tóm tắt văn bản được nghiên cứu tập trung vào hai hướng chính 2 tóm tắt rút trích extraction summarization và tóm tắt tóm lược abstraction summarization . Phương pháp tóm tắt rút trích là phương pháp tạo ra văn bản tóm tắt bằng cách chọn câu hoặc đoạn văn nổi bật từ tài liệu gốc. Tóm tắt tóm lược xây dựng một biểu diễn ngữ nghĩa các từ bên trong văn bản gốc và sử dụng kỹ thuật khác nhau để tạ o ra một bản tóm tắt gần gũi với những gì con người có thể tạo ra. Văn bản tóm tắt được tạo ra bởi phương pháp tóm lược có thể chứa các từ không có trong văn bản .

TỪ KHÓA LIÊN QUAN