tailieunhanh - Bài giảng Công nghệ XML và WEB ngữ nghĩa - Bài 5

"Bài giảng Công nghệ XML và WEB ngữ nghĩa - Bài 5: Giới thiệu về WEB Ngữ nghĩa" thông tin đến các bạn những kiến thức về thông tin và internet; bài toán tìm kiếm thông tin information retrieval; công cụ tìm kiếm trực tuyến; search engine; vấn đề cấu trúc dữ liệu text . | Công nghệ XML và WEB ngữ nghĩa Introduction to The Semantic WEB Trần Nguyên Ngọc - HVKTQS - 2012 1 Thông tin và internet World Wide Web WWW là môi trường tốt cho việc biểu diễn và truy cập thông tin dạng số. Thông tin trên WWW được biểu diễn chủ yếu dưới dạng ngôn ngữ tự nhiên các trang Web trên ngôn ngữ HTML . Máy tính và người hiểu khác nhau Mong muốn machine-readable amp machine analysis Trần Nguyên Ngọc - HVKTQS - 2012 2 Bài toán tìm kiếm thông tin Information Retrieval Information retrieval IR là quá trình tìm kiếm dữ liệu thường là tìm dưới dạng một đoạn văn bản từ một tập hợp lớn các đối tượng không có cấu trúc tường minh thường là text lưu trữ trong máy tính nhằm đáp ứng một nhu cầu về thông tin Trần Nguyên Ngọc - HVKTQS - 2012 3 Công cụ tìm kiếm trực tuyến Trần Nguyên Ngọc - HVKTQS - 2012 4 Thực chất google làm gì Gửi đi một yêu cầu query như sau http sclient psy- ab amp hl vi amp source hp amp q seantic web l C3 A0 gi 3F amp pbx 1 amp oq seantic web l C3 A0 gi 3F amp aq f amp aqi amp aql amp gs_sm e amp gs_upl 9 . amp bav . amp fp 2b8791cc67af876b amp biw 1280 amp bih 683 Trần Nguyên Ngọc - HVKTQS - 2012 5 Hiện nay làm thế nào để máy tính hiểu yêu cầu Boolean retrieval thiết kế và cấu trúc dữ liệu cho một hệ thống thu thập thông tin đơn giản Quy trình Hoạt động 1. Xây dựng Boolean model mô hình logic dùng để thu thập thông tin. 2. Biểu diễn yêu cầu dưới dạng biểu thức logic 3. Search engine trả về tất cả các tài liệu thỏa mãn biểu thức logic Kho dữ liệu khổng lồ Với 1M tài liệu văn bản lưu trữ mỗi văn bản có khoảng 1000 từ tách rời Suy ra tổng số 1 tỷ từ tách rời tính cả trùng nhau Trung bình k h o ả n g 6 bytes cho một từ tách rời ra tính cả dấu cách dấu biểu cảm Suy ra kho dữ liệu khoảng 6GB Giả sử chỉ có khoảng 500K từ - gt cần lập bảng thống kê với số lượng 500000 1000000 5 10 11 Search engine Vấn đề cấu trúc dữ liệu text HTML Hyper text markup .

TỪ KHÓA LIÊN QUAN