tailieunhanh - Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản

Trong bài báo này việc tự động hóa khôi phục dấu cho văn bản được mô hình hóa như một bài toán dịch máy thống kê dựa trên cú pháp với đầu vào là các văn bản không dấu và đầu ra là các văn bản có dấu của cùng một ngôn ngữ. Kỹ thuật suy diễn văn phạm ABL trong được mở rộng để xây dựng văn phạm phi ngữ cảnh đồng bộ xác suất từ ngữ liệu chỉ chứa các câu phẳng (plain text) có dấu. | Tạp chí Tin học và Điều khiển học, , (2014), 39–48 CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ DỰA TRÊN CÚ PHÁP GIẢI BÀI TOÁN TỰ ĐỘNG KHÔI PHỤC DẤU CHO VĂN BẢN NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Học viện Công nghệ Bưu chính - Viễn thông; haihth2004; nmtuan@ Tóm t t. Trong bài báo này việc tự động hóa khôi phục dấu cho văn bản được mô hình hóa như một bài toán dịch máy thông kê dựa trên cú pháp với đầu vào là các văn bản không dấu và đầu ra là các văn bản có dấu của cùng một ngôn ngữ. Kỹ thuật suy diễn văn phạm ABL trong [2] được mở rộng để xây dựng văn phạm phi ngữ cảnh đồng bộ xác suất từ ngữ liệu chỉ chứa các câu phẳng (plain text) có dấu. Việc khôi phục dấu cho văn bản chính là việc phân tích cú pháp cho các câu của văn bản bằng phiên bản xác suất của thuật toán phân tích cú pháp CKY trên văn phạm nhận được. Phương pháp được thử nghiệm trên tiếng Việt và cho kết quả tốt. Do tính độc lập ngôn ngữ cao nên hệ thống có thể áp dụng cho các ngôn ngữ khác. T khóa. Khôi phục dấu tự động, dịch máy dựa trên cú pháp, suy diễn văn phạm, văn phạm phi ngữ cảnh đồng bộ, thuật toán phân tích cú pháp CKY. Abstract. In this paper, the automatic diacritization of a language is modeled as a statistical syntaxbased machine translation problem with the source undiacritized text and the target diacritized text of the same languaget. The grammatical inference technique ABL proposed in [2] is extended for learning a probabilistic synchronous context-free grammar from training corpus containing plain diacritized sentences only. The diacritization is to parse input sentences by the probabilistic CKY parsing algorithm for received grammar. This method is applied to Vietnamese with high quality result. As language independent building way, it can be applied to the other languages. Key words. Automatic diacritization, syntax-based machine translation, grammatical inference, synchronous context-free grammar, CKY parsing algorithm. 1. GIỚI THIỆU Trên thế giới có rất nhiều ngôn ngữ có

TÀI LIỆU MỚI ĐĂNG
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.