tailieunhanh - Ứng dụng CRF nhận dạng thực thể định danh trong văn bản tiếng Việt
Bài viết Ứng dụng CRF nhận dạng thực thể định danh trong văn bản tiếng Việt trình bày xây dựng một hệ thống nhận dạng thực thể cho phép nhận dạng các thực thể có tên trong văn bản Tiếng Việt như tên người, địa điểm, tổ chức, thời gian, được phát triển dựa trên công cụ CRF++. | ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG SỐ 9 82 .2014 51 ỨNG DỤNG CRF NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT APPLICATIONS OF CRF FOR NAMED ENTITY RECOGNITION IN VIETNAMESE DOCUMENTS Võ Trung Hùng1 Lâm Tùng Giang1 Trần Thị Liên2 1 Đại học Đà Nẵng Email vthung@ gianglt@ 2 Học viên Cao học tại Đại học Đà Nẵng Email lientranha@ Tóm tắt - Nhận dạng các thực thể định danh là một lĩnh vực đang Abstract - Named Entity Recognition a subfield of Information nhận được sự quan tâm rộng rãi của các nhà nghiên cứu. Đã có Extraction is gaining wide attention from researchers in the field. nhiều kết quả nghiên cứu trong lĩnh vực này ở một số ngôn ngữ There have been relevant researches published in English Italian như Anh Ý Trung Quốc nhưng với Tiếng Việt thì còn hạn chế. or Chinese but not many works have been conducted in Mục đích nghiên cứu này là xây dựng một hệ thống nhận dạng Vietnamese. The purpose of this study is to build a named entity thực thể cho phép nhận dạng các thực thể có tên trong văn bản recognition system that enables the identification of named entities Tiếng Việt như tên người địa điểm tổ chức thời gian được phát such as names of people locations organizations or time in triển dựa trên công cụ CRF . Nhiệm vụ chính của bài báo là xây Vietnamese texts by using the CRF tool. This paper mainly dựng một tập dữ liệu tốt đầy đủ chính xác nhằm hỗ trợ cho việc aims at creating the tools and training data for building a named nhận dạng thực thể và xây dựng một hệ thống huấn luyện kiểm entity recognition model to facilitate the identification of entities in thử và ứng dụng. Hệ thống nhận dạng thực thể ban đầu đã thu Vietnamese documents. The Entity Recognition system was thập 300 bài báo với nhiều lĩnh vực khác nhau và hoạt động có tính evaluated 10 times on over 300 empirical articles and then showed khả thi với độ đo F1 trung bình qua 10 lần thực nghiệm đạt 84 8 . the average F1 measure of 84 8 . Từ .
đang nạp các trang xem trước