tailieunhanh - Giải pháp tìm kiếm trang web tương tự trong máy tìm kiếm Vietseek.

Giải pháp tìm kiếm trang web tương tự trong máy tìm kiếm Vietseek. Điều khiển học thế hệ thứ nhất: Điều khiển học ra đời từ sự bắt đầu quan tâm các điểm giống nhau giữa những hệ tự lập: cơ thể sống và máy móc. Tuy nhiên, đến trước năm 1970, kỹ thuật điều khiển và máy tính chỉ mới tập trung về cách tiếp cận kỹ nghệ là người thiết kế hệ thống xác định hệ thống sẽ làm cái gì. Các hệ thống con người làm ra có tất cả kiến thức theo một cách duy nhất,. | Tạp chí Tin học và Điều khiển học 2004 293-304 GIẢI PHÁP TÌM KIẾM TRANG WEB TƯƠNG Tự TRONG MÁY TÌM KlẾM VIETSEEK PHẠM THỊ THANH NAM BÙI QUANG MINH HÀ QUANG THỤY Khoa Công nghệ Đại học Quốc gia Hà Nội Abstract. This article describes some of our propositions to upgrade the search function of the Vietseek by adding a vector representation solution for web pages. It alsoproposes the vector representation for web pages a calculating formula for components of the vector a text-based similar measure of two web pages and algorithms to find out text-based similar pages of a given web page. Some realizations for above propositions in the Vietseek are described too. Tóm tắt. Bài báo này trình bày một số dề xuất giải pháp nâng cấp chức năng tìm kiếm của máy tìm kiếm tiếng Việt Vietseek thông qua việc bổ sung biểu diễn vector cho trang web. Phương pháp biểu diễn vector cho trang web công thức tính toán thành phần vector biểu diễn độ đo tương tự theo nội dung giữa hai trang web và thuật toán tìm kiếm các trang web tương tự với một trang web đã cho được đề xuất. Phương pháp cài đặt các đề xuất trên đây trong máy tìm kiếm Vietseek i cũng được trình bày. 1. MỞ ĐẦU Khai phá text đặc biệt là khai phá web hiện được rất nhiều tổ chức nhà khoa học quan m nghiên cứu triển khai và kết quả của nhiều công trình nghiên cứu đã được công bố xem rang http publications . Một số bài toán điển hình ưong khai phá web là biểu diễn trang web xử lí tìm kiếm phân lớp khám phá luật khai phá web-site. Mô hình vector là mô hình biểu diễn văn bản điển hình và được sử dụng rộng rãi nhất. Có rất nhiều cách xác định giá trị thành phần của vector biểu diễn. Các giải pháp xử lý văn bản thường gắn bó mật thiết với cách biểu diễn được chọn. Mặc dù vậy với mỗi cách biểu diễn văn bản đã cho nghimười ta có thể sử dụng nhiều giải pháp xử lý khác nhau chằng hạn với cùng một cách biểu diễn vector có thể sử dụng nhiều thuật toán phân lớp dựa trên các tiếp cận Bayes k người .

TỪ KHÓA LIÊN QUAN