tailieunhanh - VẤN ĐỀ GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT

Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động của ngôn ngữ. | Kỷ yếu Hội thảo ’03 Proceedings of '03. Hanoi Feb. 22-23, 2003 SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương Tóm tắt Trong bài báo này chúng tôi trình bày chi tiết các thử nghiệm về gán nhãn từ loại cho các văn bản tiếng Việt bằng cách áp dụng bộ gán nhãn QTAG, một bộ gán nhãn xác suất độc lập với ngôn ngữ. Chúng tôi sử dụng hai bộ nhãn từ loại với độ mịn khác nhau. Việc gán nhãn tự động dựa trên một bộ từ vựng có thông tin từ loại cho mỗi từ và một tập văn bản đã được gán nhãn bằng tay. Chúng tôi cũng trình bày khâu tiền xử lí cho việc gán nhãn: phân tách các đơn vị từ trong văn bản. Từ khoá: từ loại, từ vựng, kho văn bản, phân tách từ, gán nhãn xác suất, QTAG Abstract In this paper we describe in detail our experiments on tagging Vietnamese texts using QTAG, a language independent probabilistic tagger with two part-of-speech (POS) sets at two different levels of finesse, based on a lexicon with information about possible POS tags for each word and a manually labeled corpus. We also describe the pre-processing for POS tagging, saying text tokenization. Keywords: POS, lexicon, corpus, tokenization, probabilistic tagging,QTAG 1. GIỚI THIỆU hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy. Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ Đối với các văn bản Việt ngữ, việc gán thành các lớp từ loại dựa theo thực tiễn hoạt nhãn từ loại có nhiều khó khăn, đặc biệt là động ngôn ngữ. Mỗi từ loại tương ứng với bản thân việc phân loại từ tiếng Việt cho đến một hình thái và một vai trò ngữ pháp nhất nay vẫn là một vấn đề còn nhiều tranh cãi, định. Các bộ chú thích từ loại có thể thay đổi chưa có một chuẩn mực thống nhất [3], [5], tuỳ theo quan niệm về đơn vị từ vựng và [8], [13], [18]. Nghiên cứu của nhóm chúng thông tin ngôn ngữ cần khai thác trong các

TỪ KHÓA LIÊN QUAN