tailieunhanh - Phương pháp chỉ mục tài liệu trong thư viện số

Tham khảo Phương pháp chỉ mục tài liệu trong thư viện số giúp các bạn nắm được các nội dung về khảo sát chỉ mục tệp đảo IFID, chỉ mục tệp ký số SFID. Từ đó, đánh giá các phương pháp chỉ mục tài liệu sử dụng trong Thư viện số. | PHƯƠNG PHÁP CHỈ MỤC TÀI LIỆU TRONG THƯ VIỆN SỐ ĐỖ QUANG VINH 1. MỞ ĐẦU Hầu hết mọi người quen thuộc với cách dùng một chỉ mục trong một cuốn sách. Sử dụng một chỉ mục có thể định vị các trang liên quan trong một cuốn sách thậm chí cuốn sách được viết bằng ngôn ngữ khác. Một cuốn sách không có một chỉ mục gây khó khăn cho người sử dụng NSD . Khó khăn tìm kiếm là do một chỉ mục không đầy đủ hoặc không có một chỉ mục nào cả. Đối với thư viện số chúng ta đang nói về dữ liệu lớn hàng triệu trang văn bản ít có cấu trúc và không có một đầu mối theo ngữ cảnh nào như tựa đề. Duyệt ngẫu nhiên dữ liệu lớn bằng thủ công rất tốn kém và ngay cả tìm kiếm vét cạn bằng biện pháp cơ học là đắt. Nếu không có một chỉ mục có sẵn sự trích lọc thông tin tất phải thất bại. Do đó thành công của hệ truy tìm tài liệu IR quyết định thông tin lưu trữ được chỉ mục chính xác và đầy đủ. Ở đây chúng tôi khảo sát chỉ mục tệp đảo IFID chỉ mục tệp ký số SFID và sau đó đánh giá các phương pháp chỉ mục tài liệu sử dụng trong thư viện số. Giả thiết một cơ sở dữ liệu tài liệu CSDL được coi là một tập các tài liệu riêng biệt mỗi một được mô tả bởi một tập thuật ngữ đại diện và chỉ mục phải có khả năng nhận dạng tất cả tài liệu chứa tổ hợp của các thuật ngữ đã định rõ hoặc theo một cách khác nào đó đánh giá là có liên quan tới tập thuật ngữ truy vấn. Như vậy một tài liệu là đơn vị văn bản trả lại đáp ứng cho truy vấn. Có những trường hợp nhạy cảm lựa chọn một tài liệu trong CSDL là một đoạn hoặc thậm chí chỉ một câu của một tài liệu gốc. Người thiết kế CSDL lựa chọn tính kết hạt của chỉ mục - giải pháp cho sự định vị thuật ngữ được ghi bên trong mỗi một tài liệu. Trong giới hạn nếu tính kết hạt của chỉ mục được lấy bằng một từ thì chỉ mục sẽ ghi định vị chính xác của mỗi một từ trong CSDL như vậy văn bản gốc có thể phục hồi từ chỉ mục. Ở trường hợp này không có khả năng chỉ mục được lưu trữ trong không gian nhỏ hơn so với lượng tối thiểu có thể đối với văn bản chính dùng một giải thuật nén văn bản chuẩn. .

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.