tailieunhanh - Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm

Ngày nay, nhờ sự cải tiến không ngừng của các Search engine về cả chức năng tìm kiếm lẫn giao diện đã giúp cho người sử dụng dễ dàng hơn trong việc tìm kiếm thông tin trên web. Tuy nhiên, người sử dụng thường vẫn phải duyệt qua hàng trăm thậm chí hàng ngàn trang Web. | Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm The Application of data clustering technique in the result classification data searching Vũ Đức Thi1 Hoàng Văn Dũng2 Abstract Nowadays searching information with big data is one of main subjects for data mining. In this paper we would like to introduce an approach to search and classify web documents by using data clustering technique we solve the mathematical problem according to three main phases search Web documents data preprocessing presenting data with vector models and cluster web documents. Từ khóa data mining phân cụm dữ liệu phân cụm Web. 1. Giới thiệu Ngày nay nhờ sự cải tiến không ngừng của các Search engine về cả chức năng tìm kiếm lẫn giao diện đã giúp cho người sử dụng dễ dàng hơn trong việc tìm kiếm thông tin trên web. Tuy nhiên người sử dụng thường vẫn phải duyệt qua hàng trăm thậm chí hàng ngàn trang Web mới có thể tìm kiếm được thứ mà họ cần. Theo tâm lý chung người dùng chỉ xem qua vài chục kết quả đầu tiên họ thiếu kiên nhẫn và không đủ thời gian để xem qua tất cả kết quả mà các search engine trả về. Nhằm giải quyết vấn đề này ta có thể nhóm các kết quả tìm kiếm thành các nhóm theo từng chủ đề khi đó người dùng có thể bỏ qua các nhóm mà họ không quan tâm để tìm đến nhóm chủ đề quan tâm. Điều này sẽ giúp cho người dùng thực hiện công việc tìm kiếm một cách hiệu quả hơn. Tuy nhiên vấn đề phân cụm tài liệu Web và chọn chủ đề thích hợp để nó có thể mô tả được nội dung của các trang là một vấn đề không đơn giản. Trong bài báo này ta sẽ xem xét khía cạnh sử dụng kỹ thuật phân cụm để phân nhóm tài liệu Web dựa trên kho dữ liệu đã được tìm kiếm và lưu trữ. 1 Viện CNTT Viện Khoa học - Công nghệ Việt Nam 2 Trường ĐH Quảng Bình 1 2. Hướng tiếp cận bằng kỹ thuật phân cụm Hiện nay để xác định mức độ quan trọng của một trang web chúng ta có nhiều cách đánh giá như PageRank HITS .Tuy nhiên các phương pháp đánh giá này chủ yếu đều dựa vào các liên kết để xác định trọng số cho các trang. Ta có .

TỪ KHÓA LIÊN QUAN