tailieunhanh - Tóm tắt luận văn Thạc sĩ: Nghiên cứu các phương pháp trích rút văn bản từ trang web và ứng dụng

Nội dung luận văn được chia thành 3 chương chính: Chương 1 khái quát về khai phá dữ liệu web. Chương này giới thiệu những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá dữ liệu Web. Mời các bạn tham khảo để nắm rõ các vấn đề. | HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG B NGUYỄN THỊ TRANG NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN TỪ TRANG WEB VÀ ỨNG DỤNG Chuyên ngành Hệ thống thông tin Mã số TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2013 Luận văn được hoàn thành tại HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học Hoàng Xuân Dậu Phản biện 1 . Phản biện 2 . Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc . . Có thể tìm hiểu luận văn tại - Thư viện của Học viện Công nghệ Bưu chính Viễn thông Trang 1 MỞ ĐẦU Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong các cơ sở dữ liệu CSDL truyền thống thường là loại dữ liệu đồng nhất về ngôn ngữ định dạng. . còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ dữ liệu Web bao gồm nhiều loại ngôn ngữ khác nhau cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình nhiều loại định dạng khác nhau văn bản HTML PDF hình ảnh âm thanh. . nhiều loại từ vựng khác nhau địa chỉ email các liên kết links các mã vùng zipcode số điện thoại . Nói cách khác trang Web thiếu một cấu trúc thống nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn tuy nhiên con số khổng lồ các tài liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt nào không theo phạm trù. tiêu đề tác giả số trang hay nội dung. Do dữ liệu Web không có cấu trúc và thường không đồng nhất nên việc xử lý thông tin trên web phục vụ các yêu cầu tìm kiếm phân tích thông tin gặp nhiều khó khăn. Yêu cần thiết phải nghiên cứu các phương pháp hiệu quả để xử lý dữ liệu Web chuyển từ dạng dữ liệu không có cấu trúc. không đồng nhất thành dạng dữ liệu có cấu trúc và đồng nhất hơn. Bước xử lý này có thể được ứng dụng cho nhiều lĩnh vực như dịch tự động và xử lý ngôn ngữ tự nhiên. Luận văn tập trung nghiên cứu các phương pháp trích xuất dữ liệu từ Web. Trên cơ sở đó. thực

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.