tailieunhanh - Mô hình nén chỉ mục tệp đảo trong thư viện số - TS. Đỗ Quang Vinh

Tài liệu Mô hình nén chỉ mục tệp đảo trong thư viện số có nội dung giới thiệu đến người học một số khảo sát và đánh giá các mô hình nén chỉ mục tệp đảo tài liệu văn bản trong Thư viện số, nhấn mạnh đến các mô hình Bernoulli cục bộ. . | Kỷ yếu Hội thảo Quốc gia về Công nghệ Thông tin lần thứ VIII - Hải phòng MÔ HÌNH NÉN CHỈ MỤC TỆP ĐẢO TRONG THƯ VIỆN SỐ Đỗ Quang Vinh Tóm tắt Bài báo khảo sát và đánh giá các mô hình nén chỉ mục tệp đảo tài liệu văn bản trong thư viện số nhấn mạnh đến các mô hình Bernoulli cục bộ. 1. ĐẶT VẤN ĐỀ Các tệp đảo IF nén là phương pháp chỉ mục hữu ích nhất một cơ sở dữ liệu CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi trong thư viện số. Kích thước của một IF có thể được giảm đáng kể bằng cách nén. Ở đây chúng tôi khảo sát các mô hình và phương pháp mã hoá để nén chỉ mục tệp đảo IFID CSDL tài liệu trong thư viện số. Chìa khoá của bài toán nén là nhận xét mỗi một danh sách đảo IL có thể được lưu trữ như một dãy số nguyên tăng dần không mất tính tổng quát. Chẳng hạn giả sử thuật ngữ nào đó xuất hiện ở 8 tài liệu của một CSDL - gồm có 3 5 20 21 23 76 77 78. Thuật ngữ được mô tả ở IF bằng một danh sách 8 3 5 20 21 23 76 77 78 địa chỉ của nó được chứa trong từ vựng. Tổng quát hơn danh sách đối với một thuật ngữ t lưu trữ số tài liệu ft trong đó thuật ngữ xuất hiện và sau đó một danh sách của số tài liệu ft ft d1 d2 . dft trong đó dk dk 1. Bởi vì danh sách số tài liệu bên trong mỗi một IL được sắp tăng dần và tất cả xử lý là tuần tự từ đầu danh sách danh sách có thể được lưu trữ như một vị trí ban đầu tiếp theo bởi một danh sách của d-gap hiệu dk 1 - dk. Tức là danh sách đối với thuật ngữ ở trên có thể được lưu trữ dễ dàng như 8 3 2 15 1 2 53 1 1 . Không thông tin nào bị mất vì số tài liệu gốc thường nhận được bằng cách tính tổng tích luỹ của d-gap. Hai dạng là tương đương nhưng không rõ ràng bất kỳ sự tiết kiệm đạt được d-gap lớn nhất ở biểu diễn thứ hai là có khả năng giống như số tài liệu lớn nhất ở biểu diễn thứ nhất và như vậy nếu có N tài liệu trong CSDL và một mã hoá nhị phân phẳng được dùng để biểu diễn kích thước gap cả hai phương pháp đòi hỏi logN bit cho mỗi con trỏ lưu trữ. Tuy nhiên xem xét mỗi một IL như một danh sách của d-gap tổng của nó bị giới hạn bởi

TỪ KHÓA LIÊN QUAN