tailieunhanh - Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên
Bài viết Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đề xuất giải pháp kết hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên. | 120 Đặng Đại Thọ Huỳnh Công Pháp Doãn Hằng Diệu GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING Đặng Đại Thọ1 Huỳnh Công Pháp1 Doãn Hằng Diệu2 1 Trường Cao Đẳng Công nghệ Thông tin Đại học Đà Nẵng Email hcphap@ 2 Trường Đại học Bách khoa Đại học Đà Nẵng Email doanhangdieu@ Tóm tắt - Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ Abstract - Extraction and classification of named entities from liệu phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề corpora in Natural Language Processing NLP is an important cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ initial step for extending and building semantic oriented corpora. nghĩa. Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện Though there have been many researches on the extraction and với nhiều ngôn ngữ. Tuy nhiên đến nay vẫn chưa có công trình nào classification of information from internet resources in foreign nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ languages no research has dealt with corpora in NLP. Moreover liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa các phương pháp trích information extraction and classification methods currently used rút và phân loại thông tin đã sử dụng như nêu trên đều có những nhược such as rule based machine learning or hidden Markov have điểm riêng của nó. Trong bài báo này chúng tôi đề xuất giải pháp kết shown some drawbacks. In this paper we propose a solution hợp thuật toán so khớp tối đa Maximum matching với phân tích quan combining Maximum Matching method and contextual relation hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại analysis of entities in the text for extracting and .
đang nạp các trang xem trước