tailieunhanh - Giải pháp xây dựng kho ngữ liệu đa ngữ Việt - ÊĐê gán nhãn theo ngữ cảnh

Bài viết Giải pháp xây dựng kho ngữ liệu đa ngữ Việt - ÊĐê gán nhãn theo ngữ cảnh đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, . cho các đồng bào các dân tộc thiểu số Việt Nam. | TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 1 74 . II GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ GÁN NHÃN THEO NGỮ CẢNH SOLUTIONS TO BUILDING THE VIET - EDE MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL Hoàng Thị Mỹ Lệ1 Phan Huy Khánh2 1 Trường Cao đẳng Công nghệ Đại học Đà Nẵng Email kquynhdn@ 2 Trường Đại học Bách khoa Đại học Đà Nẵng Email khanhph29@ Tóm tắt Trong lĩnh vực xử lý ngôn ngữ tự nhiên XLNNTN kho Abstract In the natural language processing NLP the ngữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho multilingual corpus is a necessary resource. The quality of ngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của multilingual corpus plays a decisive role in the output quality of the hệ dịch. Hệ dịch sẽ không cho kết quả tốt nếu kho ngữ liệu đa ngữ translational system. The translational system will not produce a sử dụng trong quá trình huấn luyện có chất lượng không tốt cho good output if the the quality of multilingual corpus in the training dù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện process is not good though the most advanced machine learning nay chưa có một kho ngữ liệu song ngữ Việt-ÊĐê với phông chữ methods are applied. Currently there is no Vietnamese-EDe Unicode nào đã được công bố chính thức và cho phép cộng đồng multilingual corpus using Unicode fonts which has been officially nghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó bài báo announced and allows the research community to share and use đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông for research purposes. For this reason the propose of this paper chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa bằng cách is to develop a solution to building a Vietnamese-EDe multilingual gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục corpus using the Unicode font which can process the ambiguity and về chăn nuôi trồng trọt bảo vệ rừng chăm sóc sức khoẻ . cho các multi - .