tailieunhanh - Bài giảng Một số thuật toán phân loại văn bản

Bài giảng Một số thuật toán phân loại văn bản giới thiệu bài toán phân loại văn bản, các mô hình xác suất, một số mô hình phân loại (mô hình Bayes đơn giản, mô hình Bernoulli, mô hình TF-IDF), thiết kế. Mời các bạn tham khảo. | một số thuật toán phân loại văn bản Lê Hồng Phương Đại học Quốc gia Hà Nội Trường Đại học Khoa học Tự nhiên Viện Nghiên cứu Công nghệ FPT 6/2013 Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn bản 6/2013 1 / 29 Nội dung 1 Giới thiệu Bài toán phân loại văn bản Các mô hình xác suất 2 Một số mô hình phân loại Mô hình Bayes đơn giản Mô hình Bernoulli Mô hình TF-IDF 3 Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn bản 6/2013 2 / 29 Nội dung 1 Giới thiệu Bài toán phân loại văn bản Các mô hình xác suất 2 Một số mô hình phân loại Mô hình Bayes đơn giản Mô hình Bernoulli Mô hình TF-IDF 3 Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn bản 6/2013 3 / 29 Nội dung 1 Giới thiệu Bài toán phân loại văn bản Các mô hình xác suất 2 Một số mô hình phân loại Mô hình Bayes đơn giản Mô hình Bernoulli Mô hình TF-IDF 3 Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn bản 6/2013 4 / 29 Bài toán phân loại văn bản Bài toán Cho x là một văn bản. Biết x thuộc một trong các loại y ∈ {1, 2, . . . , K}. Hãy tìm loại văn bản đúng nhất của x. Ví dụ: Giả sử x là một bài báo do phóng viên viết, gửi đăng trên trang tin điện tử vnExpress. Biên tập viên cần quyết định xem x thuộc thể loại nào là thích hợp nhất: “chính trị – xã hội ”, “quốc tế ”, “thể thao”. . . Giả sử x là một văn bản ngắn có mục tiêu điều khiển tivi. Mỗi thể loại tương ứng với một hành động điều khiển: “tắt”, “bật”, “chuyển kênh”,. . . : x = “hãy bật tivi” ⇒ y = “bật ” x = “chuyển sang kênh HBO ” ⇒ y = “chuyển kênh” Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn bản 6/2013 5 / .

TỪ KHÓA LIÊN QUAN