tailieunhanh - Báo cáo khoa học: Phương pháp lọc thư rác tiếng Việt dựa trên từ ghép và theo vết người sử dụng
“Lọc thư spam” là bài toán đang được các nhà nghiên cứu quan tâm và đã xuất hiện nhiều hướng tiếp cận để xây dựng các hệ thống lọc cho hiệu quả cao. Tuy nhiên, có những vấn đề khó khăn thách thức khác đối với bài toán này: xây dựng bộ lọc thư spam tiếng Việt. Bài báo cáo này đề xuất mô hình áp dụng thuật toán Naïve Bayes để lọc thư spam tiếng Việt thông qua việc xử lý ngôn ngữ tiếng Việt. Mời bạn đọc tham khảo. | Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Cần Thơ, 7-8 tháng 10 năm 2011 PHƢƠNG PHÁP LỌC THƢ RÁC TIẾNG VIỆT DỰA TRÊN TỪ GHÉP VÀ THEO VẾT NGƢỜI SỬ DỤNG Phan Hữu Tiếp1, Vũ Đức Lung2, Cao Nguyễn Thủy Tiên1, Lâm Thành Hiển1 1 2 Đại học Lạc Hồng Đại học Công nghệ thông tin, Đại học Quốc Gia Chí Minh Tóm tắt báo cáo. “Lọc thư spam” là bài toán đang được các nhà nghiên cứu quan tâm và đã xuất hiện nhiều hướng tiếp cận để xây dựng các hệ thống lọc cho hiệu quả cao. Tuy nhiên, có những vấn đề khó khăn thách thức khác đối với bài toán này: xây dựng bộ lọc thư spam tiếng Việt. Trong bài báo này, chúng tôi đề xuất mô hình áp dụng thuật toán Naïve Bayes để lọc thư spam tiếng Việt thông qua việc xử lý ngôn ngữ tiếng Việt. Từ khóa: Lọc thư rác; anti-spam; spam tiếng Việt. 1. Giới thiệu Tách từ là vấn đề quan tâm nhất khi lọc thư rác tiếng Việt do tiếng Việt có các đặc trưng riêng mặc dù tiếng Việt cũng dùng ký tự latinh như tiếng Anh. Tiếng Việt có 2 thành phần cơ bản [1]: tiếng và từ. Một số mối liên quan giữa từ và tiếng như sau. Về ngữ pháp, tiếng là đơn vị cấu tạo của từ. Từ là đơn vị nhỏ nhất để tạo câu, hình thức và ý nghĩa của từ độc lập với cú pháp. Có 2 loại từ phổ biến: từ một tiếng (từ đơn) và từ n tiếng trở lên (n<5) gọi là từ phức. Trong đặt câu tiếng Việt, sử dụng từ chứ không sử dụng tiếng. Trong tiếng Anh, từ được định nghĩa như sau: “Từ là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu” (từ điển Webter). Ví dụ: “I am a student” sẽ tách được 4 từ: I, am, a, student. Trong tiếng Việt, ví dụ: “Tôi là học sinh” sẽ tách được 3 từ: tôi, là, học sinh. Trong đó từ ghép “học sinh” là từ được hình thành bởi 2 tiếng: “học”, “sinh”. Do sự khác biệt này, khi tách mô ̣t từ ghép trong các thư rác thành các từ đơn thì la ̣i đươ ̣c dùng phổ biế n trong các thư tố t . Cụ thể, từ “khuyế n mãi ” là từ thường đ ược dùng trong thư rác nhưng khi tách ra thành từ “ khuyế n” và từ “mãi” thì những từ này la
đang nạp các trang xem trước