tailieunhanh - Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng Việt

Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm. | Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng Việt Kỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ®Æc tr­ng b»ng gi¶I thuËt di truyÒn cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU**, TRẦN NGỌC ANH** Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm. Đầu tiên, chúng tôi xác định tập đặc trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di truyền để xác định hệ số các đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản với các hệ số thu được từ giải thuật di truyền cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng tốt trong thực tế. Từ khóa: Tóm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật di truyền. 1. ĐẶT VẤN ĐỀ Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi. Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là: tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lược AS(Abstraction Summarization)[17]. Đối với tóm tắt văn bản tiếng Việt, các nghiên cứu chủ yếu dựa theo hướng tiếp cận ES là thông qua tính toán các đặc trưng tần suất từ, vị trí câu, từ tiêu đề, độ tương tự. để chọn ra các câu quan trọng nhất theo tỉ lệ trích .

TỪ KHÓA LIÊN QUAN