tailieunhanh - Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ
Bài viết đề xuất phương pháp xây dựng WordNet tiếng Việt chỉ dựa trên WordNet của 4 ngôn ngữ nguồn là Anh, Tây Ban Nha, Pháp, Nhật Bản; Một số cải tiến như sử dụng kho ngữ liệu TEDTalk, cải tiến phương pháp chọn lọc các tập từ đồng nghĩa (synset). | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI XÂY DỰNG WORDNET TIẾNG VIỆT TỰ ĐỘNG BẰNG NGỮ LIỆU SONG NGỮ Trương Hoàng Bảo Nguyễn Ngọc Bình Lê Thành Nguyên Lê Thị Nhàn Đinh Điền Khoa Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên ĐHQG 1712290@ 1712293@ ltnhan@ ddien@ TÓM TẮT Tác giả Farid Haziyev trong nghiên cứu Automatic WordNet construction using Wikipedia data đã đề xuất phương pháp xây dựng WordNet sử dụng đồ thị để xử lý nhập nhằng graph methods kết hợp 14 WordNet của 14 ngôn ngữ khác nhau để xây dựng WordNet mới. Dựa trên phương pháp của nghiên cứu này chúng tôi đề xuất phương pháp xây dựng WordNet tiếng Việt chỉ dựa trên WordNet của 4 ngôn ngữ nguồn là Anh Tây Ban Nha Pháp Nhật Bản. Chúng tôi cũng đã thực hiện một số cải tiến như sử dụng kho ngữ liệu TEDTalk cải tiến phương pháp chọn lọc các tập từ đồng nghĩa synset . Kết quả khi so sánh WordNet tiếng Trung Quốc được xây dựng bằng phương pháp do chúng tôi đề xuất với WordNet tiếng Trung Quốc Chinese Open WordNet có sẵn cho thấy kết quả của chúng tôi tốt hơn về các thông số đánh giá như độ chính xác Precision và độ bao phủ Recall hơn so với dữ liệu mô hình của tác giả xây dựng từ dữ liệu 4 ngôn ngữ. Chúng tôi sử dụng phương pháp đề xuất ở trên để xây dựng WordNet tiếng Việt kết quả xây dựng được WordNet với 16 143 từ và 17 756 synset. Phương pháp này hoàn toàn có thể được áp dụng để xây dựng WordNet của các ngôn ngữ khác cũng như thêm vào WordNet của các ngôn ngữ nguồn để tăng số lượng từ và synset được xây dựng. Từ khóa WordNet tiếng Việt TEDTalk đồ thị xử lý ngôn ngữ tự nhiên. I. GIỚI THIỆU Ngày nay các bài toán xử lý ngôn ngữ tự nhiên như trích xuất thông tin dịch máy phân loại văn bản được ứng dụng trong nhiều lĩnh vực khác nhau và WordNet là một trong những nguồn ngữ liệu quan trọng để .
đang nạp các trang xem trước