tailieunhanh - Tóm tắt luận văn Thạc sĩ Công nghệ thông tin: Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

Với bài toán phát hiện trùng lặp tin tức từ phía Crawler luận văn đã đề cập phân tích ưu nhược điểm của một số phương pháp phổ biến để phát hiện trùng lặp và sau đó đề xuất mô hình giải quyết bài toán với giải thuật SimHash từ đó đánh giá và so sánh với thuật toán phát hiện trùng lặp phổ biến là shingling. | Tóm tắt luận văn Thạc sĩ Công nghệ thông tin Xử lý trùng lặp phân loại xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động i LỜI CẢM ƠN Trước tiên tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo PGS. TS. Nguyễn Trí Thành đã tận tình chỉ bảo hướng dẫn động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin gửi lời cảm ơn tới các thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội những người đã tận tình giúp đỡ cổ vũ và góp ý cho tôi trong suốt thời gian tôi học tập và nghiên cứu tại trường. Tôi xin gửi lời cảm ơn tới các anh chị các bạn học viên cùng học tập nghiên cứu tại Trường Đại học Công nghệ đã hỗ trợ tôi rất nhiều trong quá trình học tập cũng như thực hiện luận văn. Cuối cùng tôi muốn gửi lời cảm ơn tới gia đình và bạn bè những người thân yêu luôn bên cạnh quan tâm động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này. Tôi xin chân thành cảm ơn Hà Nội tháng 05 năm 2016 Học viên Cấn Mạnh Cường ii LỜI CAM ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp phân loại xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Nguyễn Trí Thành. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo công trình nghiên cứu liên quan ở trong nước và quốc tế. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Hà Nội tháng 5 năm 2016 Tác giả luận văn Cấn Mạnh Cường 1 MỤC LỤC LỜI CẢM ƠN . i LỜI CAM ĐOAN . ii MỤC LỤC .1 MỞ ĐẦU .1 Chương 1. GIỚI THIỆU ĐỀ TÀI .2 . Tổng quan về hệ thống thu thập tin tức tự động .2 . Tổng quan về Crawler .2 . Hệ thống thu thập tin tức tự động .3 . Các bài toán trong khuôn khổ đề tài .4 . Bài toán xử lý trùng lặp tin tức .4 . Bài toán phân loại tin . Bài toán xác định từ khóa .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN