tailieunhanh - Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê

Báo cáo này tổng kết một số kết quả nghiên cứu về gán nhãn tiếng Việt trong những năm gần đây. Bên cạnh đó, báo cáo còn đưa ra những so sánh, đánh giá chất lượng gán nhãn với hai phương pháp học máy thống kê là phương pháp cực đại hóa entropy (MaxEnt) và Conditional Random Fields. Những kết quả này sẽ góp phần định hướng cho việc xây dựng một hệ gán nhãn từ loại hiệu quả cho cộng đồng khai phá thông tin tiếng Việt nói chung và xử lý tiếng Việt nói riêng. | Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê Phan Xuân Hiếu1, Lê Minh Hoàng2, Nguyễn Cẩm Tú3 (1) Trường Khoa học thông tin, Đại học Tohoku, Nhật Bản (2) Đại học Sư Phạm Hà Nội (3) Đại học Công nghệ, Đại học Quốc gia Hà Nội Tóm tắt Trong những năm gần đây, do nhu cầu lớn về tìm kiếm, khai phá và xử lý thông tin tiếng Việt, các vấn đề xử lý tiếng Việt ngày càng nhận được nhiều quan tâm từ cộng đồng nghiên cứu trong và ngoài nước [Socbay, Bamboo, Xalo, VLSP, Biocaster, ]. Gán nhãn từ loại là một trong những bước quan trọng trong xử lý và khai phá dữ liệu tiếng Việt. Báo cáo này tổng kết một số kết quả nghiên cứu về gán nhãn tiếng Việt trong những năm gần đây. Bên cạnh đó, báo cáo còn đưa ra những so sánh, đánh giá chất lượng gán nhãn với hai phương pháp học máy thống kê là phương pháp cực đại hóa entropy (MaxEnt) và Conditional Random Fields. Những kết quả này sẽ góp phần định hướng cho việc xây dựng một hệ gán nhãn từ loại hiệu quả cho cộng đồng khai phá thông tin tiếng Việt nói chung và xử lý tiếng Việt nói riêng. Từ khóa: Gán nhãn từ loại, tiếng Việt, học máy, Maximum Entropy, Conditional Random Fields, POS Tagging 1) Giới thiệu Gắn nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu. Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác. Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh từ, nhưng từ thứ hai lại là động từ trong câu. Một số hướng tiếp cận chính trong gắn nhãn từ loại tiếng Anh [Đinh Điền] bao gồm: gắn nhãn dựa trên mô hình Markov ẩn (HMM); các mô hình dựa trên bộ nhớ (Daelemans, 1996) ; mô hình dựa trên luật (Transformation Based Learning, Brill, 1995); Maximum Entropy; cây quyết định (Schmid, 1994a); mạng nơ-ron(Schmid,