tailieunhanh - Về xử lý tiếng Việt trong công nghệ thông tin
Về xử lý tiếng Việt trong công nghệ thông tin của tác giải Hồ Tú Bảo, Lương Chi Mai nhằm giới thiệu những khái niệm cơ bản và tình hình nghiên cứu về xử lý ngôn ngữ nói chung, cũng như những nội dung và khó khăn trong xử lý tiếng Việt (văn bản và tiếng nói). Bài viết này có thể được dùng như một tài liệu tham khảo cho các nhà quản lý khoa học và những người làm nghiên cứu khoa học – công nghệ không chuyên về lĩnh vực xử lý ngôn ngữ. | Về xử lý tiếng Việt trong công nghệ thông tin Hồ Tú Bảo a,b, Lương Chi Mai a a Viện Công nghệ Thông tin, bViện Khoa học và Công nghệ Tiên tiến Nhật bản Tóm tắt: Bài viết này nhằm giới thiệu những khái niệm cơ bản và tình hình nghiên cứu về xử lý ngôn ngữ nói chung, cũng như những nội dung và khó khăn trong xử lý tiếng Việt (văn bản và tiếng nói). Bài viết này có thể được dùng như một tài liệu tham khảo cho các nhà quản lý khoa học và những người làm nghiên cứu khoa học – công nghệ không chuyên về lĩnh vực xử lý ngôn ngữ. 1. Mở đầu Gần đây khi có dịp nói chuyện về xử lý ngôn ngữ (XLNN) và xử lý tiếng Việt (XLTV) trong công nghệ thông tin (CNTT) với một số nhà quản lý khoa học và công nghệ hoặc một số đồng nghiệp, chúng tôi thấy có sự khác nhau giữa nhiều người về cách hiểu một số khái niệm cũng như giữa những nhìn nhận về tình hình nghiên cứu-phát triển trong lĩnh vực này. Điều này cũng tự nhiên, tự nhiên như hầu hết chúng ta không thật rõ về bệnh tim, hay không rõ protein được tổng hợp ra như thế nào. Khi chuẩn bị dự án về xử lý tiếng Việt, chúng tôi bỗng thấy cần giải thích cho nhiều người không làm chuyên môn về xử lý ngôn ngữ rõ hơn về các câu chuyện của lĩnh vực này. Và thay vì viết ngay đề cương, chúng tôi bắt đầu các việc của dự án bằng bài viết này. 2. Những khái niệm cơ bản Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào. Trong sự phát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếng Việt” đã được làm và ít nhiều có kết quả ban đầu: (a) Trước hết là các bộ gõ chữ Việt và thành công của việc đưa được bộ mã chữ Việt vào bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng của xử lý tiếng Việt). Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực và nhiều ý nghĩa được nhiều người theo đuổi lâu nay, .
đang nạp các trang xem trước