tailieunhanh - Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc

Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế. | 132 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc Ninh Khánh Chi1 Ninh Khánh Duy2 1 Trường Cao đẳng Công nghệ thông tin Hữu nghị Việt - Hàn 2 Trường Đại học Bách Khoa Đại học Đà Nẵng chink@ nkduy@ Abstract. Chuẩn hóa văn bản là một bước quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên và tiếng nói đặc biệt là trong ứng dụng chuyển văn bản thành tiếng nói. Văn bản tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số chữ viết tắt và từ ngữ nước ngoài. Để chuẩn hóa văn bản chúng ta cần phải chuyển tất cả các từ chưa được chuẩn hoá thành dạng chuẩn là ngôn ngữ tự nhiên. Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế. Kết quả thực nghiệm cho thấy giải pháp chúng tôi đề xuất mặc dù đơn giản nhưng vẫn có thể phân lớp các từ chưa được chuẩn hóa trong văn bản tiếng Việt với độ chính xác trên 90 cho 19 trên tổng số 24 lớp ký hiệu. Keywords Chuẩn Hóa Văn Bản Phân Lớp Ký Hiệu Bộ Quy Tắc. 1 Bài toán chuẩn hóa văn bản Trong hệ thống ngôn ngữ trên thế giới hiện nay tiếng Việt được xem là một trong những ngôn ngữ có sự phong phú và đa dạng. Chính sự phong phú và phức tạp của tiếng Việt đã dẫn đến những khó khăn cho người dùng và cả cho máy khi xử lý các văn bản tiếng Việt đặc biệt là trong lĩnh vực chuyển văn bản thành tiếng nói text-to-speech 1 . Văn bản tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số chữ viết tắt và từ ngữ nước ngoài 2 . Vì vậy văn bản cần được chuẩn hóa trước khi chuyển thành tiếng nói. Một văn bản đơn thuần bao gồm rất nhiều loại ký tự khác nhau ngôn ngữ tự nhiên chỉ là một trong số đó. Để chuẩn hóa văn bản ta cần phải chuyển tất cả