tailieunhanh - Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng việt
Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào tiến trình này. . | Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt Đồng Thị Bích Thủy#, Hồ Bảo Quốc#* #Khoa Công Nghệ Thông Tin - Đại học khoa học tự nhiên TP. HCM 227 Nguyễn Văn Cừ - Q5 – *Laboratoire CLIP – IMAG, Grenoble France thuy@, 0. Dẫn nhập Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept). Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng giữa chúng. Hơn nữa ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt. Trong báo cáo này chúng tôi trình bày việc ứng dụng xử lý ngôn ngữ tự nhiên vào hệ thống tìm kiến thông tin nói chung, tiếp theo chúng tôi trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Cuối cùng chúng tôi trình bày một số kết quả mà chúng tôi đã đạt được trong việc xác định chỉ mục cho văn bản tiếng Việt. Bài báo chia làm bốn phần, phần I giới thiệu tổng quát về việc ứng dụng xử lý ngôn ngữ tự nhiên vào lĩnh vực tìm kiếm thông tin. Phần II chúng tôi trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Phần III một số kêt quả mà chúng tôi đã đạt được trong việc lập chỉ mục cho văn bản tiếng Việt dựa trên uni-gram, bi-gram, cụm danh từ và cuối cùng là phần kết luận. 1 I. Ứng dụng xử lý .
đang nạp các trang xem trước