tailieunhanh - Tóm tắt và trích rút tài liệu văn bản trong thư viện số

Bài viết "Tóm tắt và trích rút tài liệu văn bản trong thư viện số" trình bày một số kết quả nghiên cứu lý thuyết về bài toán như tóm tắt tối ưu, hàm trích rút và đánh giá về thông tin và độ dài. Để biết rõ hơn về nội dung chi tiết, . | TÓM TẮT VÀ TRÍCH RÚT TÀI LIỆU VĂN BẢN TRONG THƯ VIỆN SỐ ĐỖ QUANG VINH Bộ môn Công nghệ Thông tin - Trường Đại học Văn hoá Hà Nội 1. MỞ ĐẦU Hiện nay, thư viện số là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới. Bài toán tóm tắt và trích rút tài liệu văn bản trong thư viện số đang được nhiều nhà nghiên cứu về các ngành khoa học khác nhau như tin học, toán học và ngôn ngữ học quan tâm. Mục tiêu của bài báo là nhận được một số phương pháp có thể lập trình trên máy tính, như vậy, máy tính sau khi được cung cấp một tài liệu văn bản, sẽ sản xuất một tóm tắt giàu thông tin. Nhưng bài toán tóm tắt tổng quát gặp phải khó khăn lớn vì nó bao hàm các bài toán khác, xây dựng các câu mới. Một cách tóm tắt hạn chế hơn là trích rút các câu quan trọng nhất. Tất nhiên, chúng ta còn cách khá xa một giải pháp thỏa đáng ngay cả đối với bài toán đơn giản hơn về trích rút tài liệu. Ở đây, chúng tôi trình bày một số kết quả nghiên cứu lý thuyết về bài toán. Cách tiếp cận của chúng tôi chủ yếu là áp dụng các phương pháp lấy mẫu và ước lượng thống kê tài liệu văn bản trong thư viện số. 2. TÓM TẮT TỐI ƯU Cho T là một văn bản cho trước và A là một tóm tắt của T. Cho I(T) và I(A) tương ứng là thông tin chứa trong T và A, L(T) và L(A) là độ dài của T và A. Ở đây, bài toán đánh giá I và L không được xét và được thảo luận ở mục 4. Bây giờ, chúng ta có thể yêu cầu A chứa một phần thông tin định rõ chứa trong T. Điều này cực tiểu hoá độ dài trong tất cả tóm tắt thoả mãn yêu cầu trên, sau đó có thể được coi là tối ưu. Như một lựa chọn, chúng tôi yêu cầu độ dài của A là một phần định rõ của tóm tắt về T và xác định là tối ưu chứa lượng thông tin cực đại. Chính xác hơn, chúng tôi có: Định nghĩa 1 Một tóm tắt AL của một văn bản cho trước T được gọi là một tóm tắt có độ dài cực tiểu chứa lượng thông tin liên quan nếu I(AL) = . I(T) và L(AL) L(A) đối với mọi tóm tắt của A về T sao cho I(A) = . I(T). Một tóm tắt AI của T được gọi là tóm tắt thông tin cực đại có độ dài

crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.