tailieunhanh - Đề tài: Text Categorization Phân Loại Văn Bản (Chương 16)

Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước. | ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN MINH THÀNH - 10 12 042 ĐỒ ÁN MÔN HỌC XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài Text Categorization Phân Loại Văn Bản Chương 16 Dựa trên tài liệu Foundations Of Statistical Natural Language Processing Christopher Hinrich Schutze - 01 2011 MỤC LỤC 1. Tóm tắt đồ 2. Bài toán phân loại văn Giới Phát biểu bài Mô hình tổng Giai đoạn huấn Giai đoạn phân Tiền xử lý văn Phương pháp biểu diễn văn Mô hình không gian Khái niệm trọng Đánh giá bộ phân Macro-Averaging .11 Micro-Averaging .11 3. Các phương pháp phân loại văn Thuật toán Naive Định Thuật Áp dụng trong phân loại văn Cây quyết định Decision Tree .18 Khái Thuật toán xây dựng Thuật toán Các độ đo trong thuật toán .20 Ví Áp dụng vào phân loại văn Biểu diễn văn Giai đoạn huấn Giai đoạn phân Mô hình xác xuất Entropy tối đại Maximum Entropy Modeling .29 Entropy .29 Khái Entropy của biến ngẫu Áp dụng vào phân loại văn bản .30 Biểu diễn văn Hàm đặc trưng và ràng Một số kí hiệu .31 Mô hình .31 Thủ tục huấn luyện Generalized iterative Giai đoạn phân 5. Tài liệu tham .

TỪ KHÓA LIÊN QUAN