tailieunhanh - Phân loại văn bản tiếng việt dựa trên mô hình chủ đề và lý thuyết Naive Bayes
Trong bài báo này, trình bày phương pháp phân loại văn bản tiếng Việt dựa trên mô hình chủ đề và phân loại dựa trên lý thuyết Naive Bayes. Đề xuất một cách tiếp cận mới để xây dựng tập từ chủ đề dựa trên mô hình xác suất có điều kiện nhằm giảm thiểu thời gian và chi phí so với việc xây dựng thủ công. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn. | Phân loại văn bản tiếng việt dựa trên mô hình chủ đề và lý thuyết Naive Bayes Nghiên cứu khoa học công nghệ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH CHỦ ĐỀ VÀ LÝ THUYẾT NAIVE BAYES Bùi Khánh Linh1, Nguyễn Quỳnh Anh1, Nguyễn Nhật An2*, Nguyễn Thị Thu Hà1, Đào Thanh Tĩnh3 Tóm tắt: Trong bài báo này, chúng tôi trình bày phương pháp phân loại văn bản tiếng Việt dựa trên mô hình chủ đề và phân loại dựa trên lý thuyết Naive tôi đề xuất một cách tiếp cận mới để xây dựng tập từ chủ đề dựa trên mô hình xác suất có điều kiện nhằm giảm thiểu thời gian và chi phí so với việc xây dựng thủ công. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn. Đồng thời, có độ chính xác khá cao và thời gian xử lý phân loại nhanh hơn so với các phương pháp đã được đề xuất trước đó. Từ khóa: Khai phá dữ liệu, Phân loại văn bản, Mô hình chủ đề, Tiếng Việt, Naive Bayes. 1. ĐẶT VẤN ĐỀ Phân loại văn bản là một trong những phần quan trọng của việc khai phá dữ liệu văn bản, khá nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức (knowledge based) hoặc dựa trên các luật được xây dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại văn bản. Mỗi loại (hay còn gọi là lớp – class) tương đương với một chủ đề ví dụ “thể thao”, “chính trị” hay “nghệ thuật”. Nhiệm vụ phân loại được bắt đầu xây dựng từ một tập các văn bản D={d1,d2,,dn} được gọi là tập huấn luyện, trong đó các tài liệu di được gán nhãn cj - với cj thuộc tập các chủ đề C={c1,c2,.,cm}. Nhiệm vụ tiếp theo là xác định được mô hình phân loại, trên cơ sở đó có thể gán đúng lớp để một tài liệu dk bất kỳ có thể phân loại chính xác vào một trong những chủ đề của tập chủ đề C [1],[2],[3],[6]. Bài toán phân loại văn bản được mô phỏng thành quá trình học như sau: Hình 1. Quá trình học phân loại văn bản. Đối với những bài toán xử lý
đang nạp các trang xem trước