tailieunhanh - Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 5. Biểu diễn web

Hướng dẫn Biểu diễn web bằng văn bản gồm các bước thật đơn giản để các bạn có thể thực hành dễ dàng hãy tham khảo các bước sao đây thứ nhất: Là bước cần thiết đầu tiên trong xử lý văn bản, Phù hợp đầu vào của thuật toán khai phá dữ liệt, Tác động tới chất lượng kết quả của thuật toán KHDL. | BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 5. BIỂU DIỄN WEB PGS. TS. HÀ QUANG THỤY HÀ NỘI 02-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu Phân tích văn bản Biểu diễn Text Lựa chọn đặc trưng Thu gọn đặc trưng Biểu diễn Web Giới thiệu Biểu diễn văn bản Là bước cần thiết đầu tiên trong xử lý văn bản Phù hợp đầu vào của thuật toán khai phá dữ liệu Tác động tới chất lượng kết quả của thuật toán KHDL Thuật ngữ tiếng Anh: (document/text) (representation/indexing) Phạm vi tác động của một phương pháp biểu diễn văn bản Không tồn tại phương pháp biểu diễn lý tưởng Tồn tại một số phương pháp biểu diễn phổ biến Chọn phương pháp biểu diễn phù hợp miền ứng dụng Một sơ đồ sơ lược: Tomek Strzalkowski: Document Representation in Natural Language Text Retrieval, HLT 1994: 364-369 Nghiên cứu về biểu diễn văn bản Nghiên cứu biểu diễn văn bản (Text + Web) Luôn là nội dung nghiên cứu thời sự Biểu diễn Web bổ sung một số yếu tố cho biểu diễn Text Số công trình liên quan "Document representation” mọi nơi: 8000 bài; tiêu đề: 200 (60 bài từ 2006-nay) “Document indexing” mọi nơi: 5200 bài; tiêu đề: 220 (60 bài từ 2006-nay) “Text representation” mọi nơi: 9200 bài; tiêu đề: 240 (60 bài từ 2006-nay) “Text indexing” mọi nơi: 6800 bài; tiêu đề: 210 (60 bài từ 2006-nay) Ghi chú: các bài “ở mọi nơi” phần đông thuộc vào các bài toán xử lý văn bản bao gồm bước trình bày văn bản Nghiên cứu về biểu diễn văn bản (2) Dunja Mladenic' (1998). Machine Learning on Non-homogeneous, Distributed Text Data. PhD. Thesis, University of Ljubljana, Slovenia. Phân tích văn bản Mục đích biểu diễn văn bản (Keen, 1977 [Lew91]) Từ được chọn liên quan tới chủ đề người dùng quan tâm Gắn kết các từ, các chủ đề liên quan để phân biệt được từ ở các lĩnh vực khác nhau Dự đoán được độ liên quan của từ với yêu cầu người dùng, với lĩnh vực và chuyên ngành cụ thể Môi trường biểu diễn văn bản (đánh chỉ số) Thủ công / từ động hóa. Thủ công vẫn có hỗ trợ của công cụ máy tinh và phần mềm . | BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 5. BIỂU DIỄN WEB PGS. TS. HÀ QUANG THỤY HÀ NỘI 02-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu Phân tích văn bản Biểu diễn Text Lựa chọn đặc trưng Thu gọn đặc trưng Biểu diễn Web Giới thiệu Biểu diễn văn bản Là bước cần thiết đầu tiên trong xử lý văn bản Phù hợp đầu vào của thuật toán khai phá dữ liệu Tác động tới chất lượng kết quả của thuật toán KHDL Thuật ngữ tiếng Anh: (document/text) (representation/indexing) Phạm vi tác động của một phương pháp biểu diễn văn bản Không tồn tại phương pháp biểu diễn lý tưởng Tồn tại một số phương pháp biểu diễn phổ biến Chọn phương pháp biểu diễn phù hợp miền ứng dụng Một sơ đồ sơ lược: Tomek Strzalkowski: Document Representation in Natural Language Text Retrieval, HLT 1994: 364-369 Nghiên cứu về biểu diễn văn bản Nghiên cứu biểu diễn văn bản (Text + Web) Luôn là nội dung nghiên cứu thời sự Biểu diễn Web bổ sung một số yếu tố cho biểu diễn Text Số công trình liên quan

TỪ KHÓA LIÊN QUAN