Đang chuẩn bị liên kết để tải về tài liệu:
Đề tài " XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB CRAWLER "

Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ

Cùng với sự phát triển của Internet, số lượng các bài báo khoa học được công bố trên các Web ngày càng tăng, điều này gây ra một số khó khăn khi người dùng muốn tìm kiếm các bài báo về vấn đề mà mình nghiên cứu, cũng như gây ra một thách thức lớn đối với các hệ thống đánh dấu, lưu trữ dữ liệu chỉ mục hỗ trợ tìm kiếm trong việc đảm bảo thông tin các bài báo được cập nhật đẩy đủ, nhanh chóng và chính xác. Hiện nay khi người nghiên cứu cần tìm kiếm một. | Đại Học Công Nghệ Thông Tin Khoa Công Nghệ Phần Mềm MỤC LỤC CHƯƠNG 1 TỔNG QUAN.1 1.1 Đặt vấn đề.1 1.2 Mục tiêu và phạm vi khóa luận.2 1.2.1 Mục tiêu khóa luận.2 1.2.2 Phạm vi khóa luận.3 1.3 Kết quả dự kiến.3 1.4 Cấu trúc khóa luận.3 CHƯƠNG 2 CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN.4 2.1 Mở đầu.4 2.2 Một số khái niệm cơ bản.4 2.2.1 Trích xuất thông tin IE và truy vấn thông tin IR .4 2.2.2 Web Crawler.6 2.2.3 Metadata.8 2.2.4 Bibtex.10 2.3 Các nghiên cứu và ứng dụng liên quan.13 2.3.1 Các nghiên cứu liên quan.13 2.3.2 Các ứ ng dụng liên quan.16 2.3.2.1 Digital Bibliography Library Project DBLP .16 2.3.2.2 Lightweight Federated Digital Library LFDL .22 2.3.2.3 Autonomous Citation Indexing ACI .25 2.3.2.4 Thư viện số ACM CiteSeer IEEEXplore.27 Th.s Huỳnh Ngọc Tín Đỗ Văn Tiến - Nguyễn Phước Cường Đại Học Công Nghệ Thông Tin Khoa Công Nghệ Phần Mềm CHƯƠNG 3 XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB CRAWLER.30 3.1 Mở đầu.30 3.2 Phương pháp thu thập trên thư viện số.30 3.2.1 Cách thức thu thập các bài báo từ thư viện số ACM.30 3.2.2 Cách thức thu thập các bài báo từ thư viện số lEEEXplore.34 3.2.3 Cách thức thu thập các bài báo từ thư viện số CiteSeer.38 3.3 Bộ phân tích Bibtex Bibtex Parser .40 3.4 Kiểm tra dữ liệu trùng lặp.41 3.5 Các luồ ng xử lý dữ liệu trong hệ thống.43 3.5.1 Luồng xử lý chung của hệ thống.43 3.5.2 Quá trình thu thập thông tin Metadata từ thư viện số.44 3.5.3 Rút trích thông tin Metadata.46 3.5.4 Xử lý kết quả thu thập.47 3.5.4 Quản lý cơ sở dữ liệu.48 CHƯƠNG 4 HIỆN THỰC HỆ THỐNG.49 4.1 Mở đầu.49 4.2 Kiến trúc hệ thống.49 4.3 Thiết kế cơ sở dữ liệu.50 4.3.1 Mô tả cấu trúc dữ liệu của DBLP.50 4.3.2 Cơ sở dữ liệu hệ thống.54 4.4 Kiến trúc phân lớp của hệ thống.56 4.5 Hệ thống xây dựng và làm giàu dữ liệu chỉ mục.59 Th.s Huỳnh Ngọc Tín Đỗ Văn Tiến - Nguyễn Phước Cường Đại Học Công Nghệ Thông Tin Khoa Công Nghệ Phần Mềm CHƯƠNG 5 THỰC NGHIỆM ĐÁNH GIÁ.61 5.1 Kết quả thực nghiệm.61 5.2 Đánh giá.63 CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.64 6.1 Kết luận.64 6.2

TÀI LIỆU LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.