tailieunhanh - Tóm tắt báo cáo tổng kết đề tài khoa học và công nghệ cấp Đại học Đà Nẵng: Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram – Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động
Đề tài nghiên cứu để tránh các trường hợp về đa dạng cách biểu diễn từ đồng nghĩa hay tồn tại các nhóm từ thường đi kèm cùng nhau trong một văn bản, nhóm nghiên cứu đề xuất phương pháp phân cụm các từ tiếng Việt dựa vào tần số xuất hiện cùng nhau của một cặp từ trên một trang, một đoạn hay một câu trong Wikipedia tiếng Việt (số trang, số đoạn hay số câu Wikipedia có chứa đồng thời cả 2 từ). | BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram – Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động Mã số: Đ2015-02-132 Chủ nhiệm đề tài: TS. Phạm Minh Tuấn Đà Nẵng, 09/2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram – Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động Mã số: Đ2015-02-132 Xác nhận của cơ quan chủ trì đề tài (ký, họ và tên, đóng dấu) Chủ nhiệm đề tài (ký, họ và tên) TS. Phạm Minh Tuấn Đà Nẵng, 09/2016 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Ngày nay, việc trao đổi thông tin hầu hết đều dưới dạng văn bản như : thời sự, tư liệu, tài liệu, kết quả nghiên cứu khoa học Cùng với việc phát triển tri thức cũng như toàn cầu hóa về internet, số lượng văn bản này ngày càng được gia tăng và lan truyền rộng rãi một cách nhanh chóng. Tuy nhiên, trong quá trình lan truyền và cập nhật thông tin một cách nhanh chóng này, các thông tin được lưu trữ (dưới dạng tài liệu số) cũng ngày càng tăng và rất khó khăn trong việc sắp xếp hay truy vấn tài liệu nếu không được phân loại một cách hợp lý. Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán là phân loại các tài liệu vào các nhóm chủ đề cho trước. Đây là bài toán thường gặp trong thực tế như phân loại các tài liệu theo từng chủ đề (pháp luật, trính trị, giáo dục, thể thao, ) khác nhau. Việc tìm kiếm thông tin dễ dàng và nhanh chóng hơn khi các văn bản đã được phân loại. Tuy nhiên quá trình phân loại tiêu tốn thiều thời gian và chi phí nếu làm một cách thủ công. Vì vậy, thực hiện việc phân loại tự động văn bản số hiện nay là một vấn đề cấp thiết. Để giải quyết vấn đề trên, có nhiều phương pháp học máy như cây .
đang nạp các trang xem trước