tailieunhanh - Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ

Bài viết trình bày việc đề xuất việc áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa vào gióng hàng trong hệ thống dịch máy Việt-Anh; Đề xuất thuật toán tạo bảng gióng hàng từ A* từ bảng A trước khi xây dựng mô hình dịch, giúp giữ nguyên chất lượng mô hình ngôn ngữ trong hệ thống dịch máy. | Nghiên cứu khoa học công nghệ CẢI TIẾN MÔ HÌNH GIÓNG HÀNG TRONG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ Đặng Thanh Quyền1 Nguyễn Chí Thành1 Nguyễn Phương Thái2 Tóm tắt Trong hệ thống dịch máy thống kê Statistical Machine Translation - SMT gióng hàng từ là một nhiệm vụ quan trọng và có ảnh hưởng lớn đến chất lượng hệ dịch. Hiện nay chưa có nghiên cứu nào sử dụng các kỹ thuật chia nhỏ từ cho hệ thống dịch máy thống kê cặp ngôn ngữ Việt-Anh. Trong bài báo này chúng tôi đề xuất một hướng tiếp cận sử dụng các kỹ thuật chia nhỏ từ vào hệ thống dịch máy thống kê nhằm nâng cao chất lượng gióng hàng từ từ đó nâng cao chất lượng hệ dịch cho cặp ngôn ngữ Việt-Anh. Ngoài việc áp dụng kỹ thuật chia nhỏ từ như một bước tiền xử lý chúng tôi còn đề xuất cải tiến mô hình gióng hàng từ để nâng cao chất lượng hệ dịch. Phương pháp đề xuất đã được cài đặt thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE Wordpiece unigram và Morfessor kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất đều giúp tăng điểm BLEU so với kết quả baseline với kết quả cao nhất sử dụng kỹ thuật BPE giúp tăng điểm BLEU. Từ khóa Subword Gióng hàng từ Dịch máy thống kê. 1. ĐẶT VẤN ĐỀ Trong hệ thống dịch máy thống kê SMT việc gióng hàng từ trên một kho ngữ liệu song ngữ đã gióng hàng mức câu là một bước quan trọng và có ảnh hưởng lớn đến chất lượng hệ dịch 1 . Hiện nay các mô hình gióng hàng từ phổ biến nhất là các mô hình gióng hàng IBM 2 . Các mô hình này được áp dụng rộng rãi trong các hệ thống dịch máy thống kê. Các tham số của các mô hình IBM được ước tính bằng cách sử dụng nguyên lý hợp lý cực đại Maximum Likelihood tức là bằng cách đếm sự đồng xuất hiện của các từ trong văn bản song song. Các mô hình gióng hàng IBM đòi hỏi một lượng lớn dữ liệu song ngữ được gióng hàng mức câu và thường gặp vấn đề khi gióng hàng với các từ có tần suất xuất hiện ít từ hiếm - rare words . Đã có nhiều nghiên cứu nhằm tăng chất lượng gióng hàng từ cho dịch máy thống kê cho các cặp

TỪ KHÓA LIÊN QUAN