tailieunhanh - Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật voting

Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất. | Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật voting Kỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ph­¬ng ph¸p cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt dùa vµo kü thuËt voting NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU**, TRẦN NGỌC ANH** Tóm tắt: Phương pháp tóm tắt văn bản tiếng Việt dựa vào kỹ thuật Voting là một phương pháp mới được đề xuất với ý tưởng xem kết quả của mỗi phương pháp tóm tắt văn bản khác nhau là một lá phiếu đã được sắp xếp thứ tự ưu tiên các câu trích rút, sử dụng kỹ thuật Voting để lựa chọn các câu ưu tú dựa trên các lá phiếu đã nêu. Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất. Từ khóa: Tóm tắt văn bản tiếng Việt, Kỹ thuật Voting, Hệ số phương pháp, Giải thuật di truyền. 1. ĐẶT VẤN ĐỀ Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi. Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là: tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lược AS(Abstraction Summarization). Đối với tóm tắt văn bản tiếng Việt, các nghiên cứu chủ yếu dựa theo hướng tiếp cận ES là thông qua tính toán các đặc trưng tần suất từ, vị trí câu, từ tiêu đề, độ tương tự. để chọn ra các câu quan trọng nhất theo tỉ lệ trích .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.