tailieunhanh - Báo cáo khoa học: Ứng dụng thuật toán phân lớp rút trích thông tin văn bản FSVM trên internet
Bài báo đã sử dụng kỹ thuật rút trích thông tin tự động và phân loại văn bản bằng phương pháp SVM (Support vector machine), FSVM (Fuzzy SVM), kết hợp với phân loại đa lớp mờ. Kết quả ứng dụng của nghiên cứu dùng trong rút trích thông tin, thu thập tin tức của các website hành chính của các Sở, ban, ngành thành phố nhằm cung cấp cho người dân, doanh nghiệp các thông tin về chủ trương chính sách, thông tin của thành phố trong hoạt động hành chánh công. 1 | TẠP CHÍ PHÁT TRIỂN KH CN TẬP 12 SÓ 05 - 2009 ỨNG DỤNG THUẬT TOÁN PHÂN LỚP RÚT TRÍCH THÔNG TIN VĂN BẢN FSVM TRÊN INTERNET Vũ Thanh Nguyên 1 Trang Nhật Quang 2 1 Trường Đại học Công nghệ Thông tin ĐHQG-HCM 2 Sở Công Nghiệp Thành phố Hồ Chí Minh Bài nhận ngày 08 tháng 04 năm 2008 hoàn chỉnh sửa chữa ngày 04 tháng 10 năm 2008 TÓM TẢT Bài báo đã sử dụng kỹ thuật rút trích thông tin tự động và phân loại văn bản bằng phương pháp SVM Support vector machine FSVM Fuzzy SVM kết hợp với phân loại đa lớp mờ. Kết quả ứng dụng của nghiên cứu dùng trong rút trích thông tin thu thập tin tức của các website hành chính của các Sở ban ngành thành phố nhằm cung cấp cho người dân doanh nghiệp các thông tin về chủ trương chính sách thông tin của thành phố trong hoạt động hành chánh công. 1. GIỚI THIỆU Hiện đã có một số nghiên cứu về rút trích văn bản và phân loại văn bản trong bài báo này nhóm nghiên cứu tìm hiểu các kỹ thuật trên và áp dụng vào một ứng dụng thực tế là thu thập và phân loại thông tin trên các trang báo điện tử phục vụ cho việc cung cấp tin tức trên các trang web hành chính thành phố. Các thông tin này có thể do các cơ quan tự cung cấp hoặc thu thập được trên các trang web của Bộ Chính phủ và các trang báo điện tử khác. Phần thu thập thông tin sử dụng phương pháp nhận dạng mẫu 2 9 11 để có thể tự động rút trích thông tin từ các trang web tin tức. Phần phân loại thông tin tác giả sử dụng kỹ thuật phân loại văn bản Fuzzy Support Vector Machines FSVMs 12 kết hợp với phân loại đa lớp mờ 5 do kết quả phân loại rất tốt của phương pháp này theo các đề tài đã nghiên cứu 0 5 8 12 . Sơ đồ thực hiện gồm hai bước chí là thu thập thông tin và phân loại thông tin cụ thể như sau Hình 1. Sơ đồ thực hiện. 2. THU THẬP THÔNG TIN TRÊN TRANG WEB Hiện nay rút trích thông tin trên web thường được thực hiện bằng cách sử dụng các wrapper. Một wrapper có thể được xem như là một thủ tục được thiết kế để có thể rút trích được những nội dung cần quan tâm của một nguồn thông tin nào đó. Đã có nhiều .
đang nạp các trang xem trước