tailieunhanh - Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.1 - Lê Thanh Hương
Chương này cung cấp cho người học những hiểu biết cơ bản về phân loại tin tự động cho báo điện tử. Mục đích của việc phân loại này nhằm tìm hiểu và thử nghiệm các phương pháp phân loại văn bản áp dụng trên Tiếng Việt. Chương này sẽ trình bày một số phương pháp thực hiện phân loại, các chương trình thực nghiệm và đánh giá kết quả. . | 1. Tổng quan Ứng dụng của Phân loại văn bản PHÂN LOẠI TIN TỰ ĐỘNG CHO BÁO ĐIỆN TỬ Phân loại các tài liệu trong các thư viện Phân loại trong quá trình tác nghiệp của các báo điện tử. Phân chia sắp xếp lại các luận văn, đồ án trong các trường Đại học. Bộ máy tìm kiếm muốn phân chia các tài liệu trả về thành các chuyên mục Æ người đọc dễ nắm bắt được nội dung ban đầu của các kết quả tìm được. 1 2 1. Tổng quan 1. Tổng quan Sơ đồ minh họa quá trình phân loại Ứng dụng “Phân loại tin tự động cho báo điện tử” nhằm tìm hiểu và thử nghiệm các phương pháp phân loại văn bản áp dụng trên Tiếng Việt. Mô hình hóa VB Document Vector VB cần ầ phân lớp Tính độ Kết hợp giữa hai phương pháp đã được chứng minh có hiệu quả cao để giải quyết hai bài toán khác nhau là Phân loại và Lập nhóm văn bản Æ đề xuất một mô hình cải tiến, phù hợp với bài toán tương tự Kết luận phân nhóm Pha lập nhóm Vector trọng tâm mỗi nhóm Các VB mẫu đã phân lớp Kết luận phân loại 3 4 2. Các phương pháp thực hiện 2. Các phương pháp thực hiện (tiếp) Pha lập nhóm Các VB mẫu đã phân lớp Pha lập nhóm Tại sao cần sử dụng các phương pháp lập nhóm văn bản dựa trên thuật ngữ xuất hiện thường xuyên ? Vector trọng tâm mỗi ỗi nhóm hó Pha lập nhóm được thực hiện trước, một cách “offline” Æđể xác định vector trọng tâm cho mỗi nhóm cùng các thông tin truy hồi 5 Kỹ thuật lập nhóm này phù hợp với yêu cầu “offline”, các thuật toán áp dụng cho phương pháp này có độ chính xác cao tuy thời gian xử lý chậm hậ và à chi hi phí hí lớn, lớ nhưng h khô cần không ầ thiết lắm lắ khi xử ử lý offline. ffli Thuật ngữ thường xuyên là các thuật ngư xuất hiện nhiều lần trong văn bản hoặc trong một tập văn bản, các thuật ngữ phải có ý nghĩa, chúng đại diện cho nội dung toàn văn bản. Các thuật ngữ thường xuyên tạo nền tảng của việc khai thác quy tắc kết hợp. Làm giảm được số chiều của vector biểu diễn tài liệu. 6 1 Apriori: Loại bỏ dựa trên độ hỗ trợ Giảm bớt số lượng các tập mục cần .
đang nạp các trang xem trước