tailieunhanh - Báo cáo khoa học: "MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT"

Tóm tắt: Hiện nay, tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản: từ trang web, các dữ liệu điện tử đến các cơ sở dữ iệu Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết, không chỉ mang lại lợi ích cho các lập trình viên mà cho cả nhân viên văn phòng, nhân viên xử lý văn bản. Công việc này cũng tạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như: kiểm tra. | MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT ThS. PHẠM XUÂN TÍCH Bộ môn Khoa học máy tính Khoa Công nghệ thông tin Trường Đại học Giao thông Vận tải Tóm tắt Hiện nay tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản từ trang web các dữ liệu điện tử đến các cơ sở dữ iệu. Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết không chỉ mang lại lợi ích cho các lập trình viên mà cho cả nhân viên văn phòng nhân viên xử lý văn bản. Công việc này cũng tạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như kiểm tra phát hiện lôi chính tả tóm tắt văn bản làm từ điển thậm chí cả dịch máy và xử lý ngôn ngữ tự nhiên. Trong khuôn khổ bài báo này chúng tôi đưa ra một thuật toán nhận dạng mã để dê dàng chuyển đổi mã tiêng Việt mà các chương trình hiện nay hầu hết chỉ chuyển mã biết trước mà không nhận dạng được các bảng mã cũng như không xử lý được các văn bản tiếng Việt có nhiều loại mã trong cùng một văn bản. Summary In recent years there are over 40 Vietnamese codes for encoding on all types of data from websites databases to documents and many others. Codes recognization and conversion have so many advantages for not only programmers but office clients and secretaries as well. It makes premises for advanced Vietnamese processing such as spell checking syntact correcting document abstracting dictionary constructing even machine translating and natural language processing. In this article we present an algorithrm which can recognize many kinds of Vietnamese codes to make them easy to convert while almost other programs can only convert some known codes and cannot recognize codes or process Vietnamese documents having more than one code. CNTT-CB I. MÃ HOÁ TIẾNG VIỆT TRONG CÔNG NGHỆ THÔNG TIN Công nghệ thông tin là một ngành non trẻ ở nước ta với khoảng 20 năm phát triển nhưng nó cũng đang là một ngành có nhiều đóng góp đối với nền kinh tế đất nước. Với chi phí rất ít nhưng nó đem lại lợi nhuận cao là một

TỪ KHÓA LIÊN QUAN