tailieunhanh - A model for exploiting the target language characteristics to extract bilingual base noun phrases

Trong bài báo này, chúng tôi đề xuất một mô hình tổ hợp sử dụng đặc tính ngôn ngữ đích để rút trích cụm danh từ song ngữ qua phương pháp chiếu trên kết quả đối sánh từ bằng phương pháp thống kê. Đặc tính ngôn ngữ đích được sử dụng trong mô hình này là phân đoạn từ, trật tự từ và phân lớp từ. | Journal of Computer Science and Cybernetics, , (2014), 177–188 A MODEL FOR EXPLOITING THE TARGET LANGUAGE CHARACTERISTICS TO EXTRACT BILINGUAL BASE NOUN PHRASES NGUYEN CHI HIEU Faculty of Information Technology, Industrial University of Ho Chi Minh City; nchieu@ Tóm t t. Rút trích cụm danh từ song ngữ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Bài toán này càng trở nên khó khăn hơn với cặp song ngữ Anh-Việt do thiếu vắng nguồn tài nguyên tiếng Việt bao gồm các công cụ xử lý ngôn ngữ tự nhiên như treebanks, part-of-speech taggers, parsers và dữ liệu huấn luyện có chú giải. Trong bài báo này, chúng tôi đề xuất một mô hình tổ hợp sử dụng đặc tính ngôn ngữ đích để rút trích cụm danh từ song ngữ qua phương pháp chiếu trên kết quả đối sánh từ bằng phương pháp thống kê. Đặc tính ngôn ngữ đích được sử dụng trong mô hình này là phân đoạn từ, trật tự từ và phân lớp từ [1]. Mô hình của chúng tôi không những khắc phục được sự thiếu vắng nguồn tài nguyên cho xử lý ngôn ngữ tự nhiên tiếng Việt mà còn cải thiện được kết quả do đối sánh rỗng, đối sánh lỗi, vấn đề chồng chéo và xung đột của phương pháp chiếu. Mô hình đề xuất có thể được áp dụng cho các cặp ngôn ngữ khác. Thực nghiệm trên cặp câu song ngữ Anh-Việt, mô hình đề xuất cho kết quả rất khả quan. T khóa. Npbase, từ phân lớp, trật tự từ, NLP Abstract. Bilingual Base Noun Phrase (BaseNP) extraction is one of the key tasks of Natural Language Processing (NLP). This task is more challenging for the pair of English-Vietnamese due to the lack of available Vietnamese language resources such as treebanks, part-of-speech taggers, and parsers. In this paper, we propose a combination model that uses language characteristics based on statistics and projection method to extract BaseNP correspondences from a bilingual corpus. The language characteristics used in this model include the word segmentation, word order and word classification [1]. Our model not only overcomes the

TỪ KHÓA LIÊN QUAN