tailieunhanh - Trích nút thông tin tự động từ văn bản tiếng Việt

Bài báo đề xuất các hướng tiếp cận học bán giám sát trong việc xây dựng hệ thống trích nút thông tin tự động từ văn bản tiếng Việt. Với trích rút thực thể, mở rộng phương pháp của Liao bằng cách sử dụng các luật đồng tham chiếu về tên và các luật nhóm 2 để tìm các thực thể mới. | T¤p ch½ Tin håc v i·u khiºn håc, , (2012), 115 128 TR CH RÓT THÆNG TIN TÜ ËNG TØ V N B N TI NG VI T∗ 1 1 2 SAM CHANRATHANY , L THANH H×ÌNG , NGUY N THANH THÕY , 1 NGUY N HÚU THI N 1 Vi»n Cæng ngh» Thæng tin v Truy·n thæng, Tr÷íng ¤i håc B¡ch khoa H Nëi 2 Tr÷íng ¤i Cæng ngh», ¤i håc Quèc gia H Nëi Tóm t t. B i b¡o · xu§t c¡c h÷îng ti¸p cªn håc b¡n gi¡m s¡t trong vi»c x¥y düng h» thèng tr½ch rót thæng tin tü ëng tø v«n b£n ti¸ng Vi»t. Vîi tr½ch rót thüc thº, mð rëng ph÷ìng ph¡p cõa Liao [7] b¬ng c¡ch sû döng c¡c luªt çng tham chi¸u v· t¶n v c¡c luªt nhâm 2 º t¼m c¡c thüc thº mîi. Thû nghi»m cho th§y, h» thèng · xu§t câ ë ch½nh x¡c cao hìn h» thèng cõa Liao [7]. Vîi tr½ch rót mèi quan h» c£i ti¸n h m nh¥n mùc næng SLK cõa Giuliano [6] b¬ng c¡ch bê sung th¶m c¡c °c tr÷ng cho vi»c biºu di¹n c¥u bao gçm tø lo¤i, lo¤i thüc thº, tø iºn ëng tø v thay êi k½ch cï cûa sè cõa h m nh¥n. K¸t qu£ thû nghi»m cho th§y ph÷ìng ph¡p håc câ gi¡m s¡t sû döng SLK c£i ti¸n tèt hìn ph÷ìng ph¡p håc câ gi¡m s¡t sû döng SLK cõa Giuliano [6]. V khi ¡p döng ph÷ìng ph¡p håc b¡n gi¡m s¡t, h» thèng thu ÷ñc k¸t qu£ tèt hìn håc câ gi¡m s¡t. Abstract. This paper presents semi-supervised approaches to construct a Vietnamese information extraction system. Our approach in named entity extraction inherits the idea of Liao [7] and extends it by using proper name coreference rules to find new entities. The new entities are put into the training set to learn new context features for the extracting module. The experimental results show that our method achieves higher accuracy than Liaos [7]. In relation extraction, we improve the Shallow Linguistic Kernel (SLK) of Giuliano et [6] by modifying the window size of the kernel and using additional features to present sentences, including part of speech, another entity types, and a dictionary of compound verbs. Our experimental results also show that the supervised method using our SLK achieves higher accuracy than