tailieunhanh - Nghiên cứu và đề xuất một kiến trúc khung cho xử lý tài liệu tiếng Việt

Trong bài báo này muốn trình bày một quan điểm tổng thể về các đối tượng liên quan đến hệ thống xử lý tài liệu, một kiến trúc phần mềm khung cho việc xử lý tài liệu từ đó đề nghị một giải pháp xây dựng một hệ thống xử lý văn bản tiếng Việt. | Nghiên cứu và đề xuất một kiến trúc khung cho xử lý tài liệu tiếng Việt Nghiên cứu và đề xuất một kiến trúc khung cho xử lý tài liệu tiếng Việt Hồ Bảo Quốc, Hồ Tú Bảo, Đinh Điền Tóm tắt : Trong bài báo này chúng tôi muốn trình bày một quan điểm tổng thể về các đối tượng liên quan đến hệ thống xử lý tài liệu, một kiến trúc phần mềm khung cho việc xử lý tài liệu từ đó đề nghị một giải pháp xây dựng một hệ thống xử lý văn bản tiếng Việt. 1. Giới thiệu Trước hết xin được xác đinh rõ nghĩa của thuật ngữ xử lý tài liệu (Text processing) trong ngữ cảnh của bài này là các xử lý liên quan đến việc phân tích nội dung tài liệu (content analyse) chứ không đề cập đến việc soạn thảo, hiệu đính và thể hiện tài liệu. Các ứng dụng liên quan đến phân tích nội dung tài liệu như : xác định ranh giới các đối tượng trong tài liệu như : từ, ngữ, đoạn, việc gán nhãn ngữ pháp (từ gốc, từ loại) hay nhãn ngữ nghĩa cho các đối tượng và rút trich thông tin từ nội dung tài liệu để phục vụ cho một lớp các ứng dụng khác nhau như : lập chỉ mục, tìm kiếm, phân lớp Các ứng dụng này thao tác trên một tài liệu hay một tập các tài liệu, được gọi là kho tài liệu (corpus) và có thể sử dụng một số tài nguyên ngôn ngữ học như các các danh sách cho trước (Gazetteers), danh mục từ (lexicons), hay các ontologies. Nếu các ứng dụng này được phát triển một cách rời rạc, thao tác trên những kho tài liệu với định dạng khác nhau thì sẽ dẫn đến một hệ quả là không thể tích hợp trao đổi kết quả với nhau, mà đây là yêu cầu không thể thiếu được trong xử lý tài liệu : kết quả của một ứng dụng này có thể là đầu vào cho một ứng dụng khác để hình thành một ứng dụng hoàn chỉnh. Ví dụ : chúng ta cần có một ứng dụng rút trích các thực thể được định danh (bài toán NER : Named Entity Recognition), chúng ta sẽ phải thực hiện việc : xác định ranh giới từ (Word Segmentation), gán nhãn từ loại cho từ (POS Tagging), rút trích cụm từ (chunking). Nếu .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN