tailieunhanh - Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.2 - Lê Thanh Hương

Chương này trình bày về phân lớp văn bản tiếng việt theo hướng tiếp cận lexical chain. Nội dung chính gồm có: Tổng quan về bài toán phân lớp văn bản, tiếp cận bài toán phân lớp văn bản tiếng Việt theo hướng lexical chain. . | 4/21/2011 PHẦN I: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN LEXICAL CHAIN TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN Các phương pháp biểu diễn văn bản Mô hình vector Văn bản = 1 vector n chiều + trọng số cho mỗi giá trị của nó Mô hình vector thưa số ố từ với ới ttrọng số ố khác khá 0 nhỏ hỏ hơn h rất ất nhiều hiề so với ới số ố từ có ó trong Cơ sở dữ liệu Các phương pháp biểu diễn văn bản Mô hình tần số kết hợp TF x IDF Xét: Tập dữ liệu gồm m văn bản: D = {d1, d2, dm}. ạ g một ộ vector g gồm n thuật ậ Mỗi văn bản biểu diễn dưới dạng ngữ T = {t1, t2, tn}. fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj m là số lượng văn bản hi là số văn bản mà thuật ngữ ti xuất hiện Gọi W = {wij } là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti trong văn bản dj Các phương pháp biểu diễn văn bản Ma trận trọng số TFxIDF được tính như sau: ⎧ ⎛m⎞ ⎪[1 + log( f ij )] log⎜⎜ ⎟⎟ nÕu hij ≥ 1 wij = ⎨ ⎝ hi ⎠ ⎪ ⎩0 nÕu ng−îc l¹i Các phương pháp biểu diễn văn bản (tt) Mô hình Lexical Chain: “Lexical Chain” là một khái niệm nhằm duy trì tính cố kết giữa các từ trong văn bản có mối liên quan với nhau về mặt ngữ nghĩa g Một số loại quan hệ về ngữ nghĩa giữa các từ: Lặp lại (Repeatation) Đồng nghĩa (synonyms ) Trái nghĩa () Bộ phận-Toàn thể (hypernyms, hyponyms ) Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường} 1 4/21/2011 Các thuật toán giải quyết bài toán Phân lớp văn bản Thuật toán cây quyết định. Thuật toán k-NN. Thuật toán Lexical Chain. Thuật toán kNN (K-Nearest Neighbor) Tư tưởng : tính toán độ phù hợp của văn bản đang xét với từng lớp (nhóm) dựa trên k văn bản mẫu có độ tương tự gần nhất. Có 3 cách gán nhãn: Gán nhãn văn bản gần nhất: Gán nhãn theo số đông Gán nhãn theo độ phù hợp chủ đề Cách biểu diễn văn bản (hướng tiếp cận truyền thống): TF x IDF Lý do lựa chọn hướng Lexical Chain Can thiệp vào bản chất ngôn ngữ của văn bản, thay vì mô hình toán học thuần tuý