tailieunhanh - Tinh chỉnh đặc trưng từ trong gom nhóm tập câu hỏi tiếng Việt
Nghiên cứu này trình bày về các kỹ thuật tinh chỉnh đặc trưng từ trong tập dữ liệu hỏi đáp Tiếng Việt phục vụ cho việc gom nhóm dữ liệu. Dựa vào kết quả đánh giá gom nhóm thử nghiệm các kỹ thuật tinh chỉnh đặc trưng trên tập dữ liệu thử nghiệm, từ đó đưa ra các đặc tính phù hợp của đặc trưng dùng cho việc gom nhóm tập dữ liệu hỏi đáp Tiếng Việt. | 40 TRƯỜNG ĐẠI HỌC PHÚ YÊN TINH CHỈNH ĐẶC TRƯNG TỪ TRONG GOM NHÓM TẬP CÂU HỎI TIẾNG VIỆT Nguyễn Xuân Hậu - Ngô Thị Khánh Tường Tóm tắt Nghiên cứu này trình bày về các kỹ thuật tinh chỉnh đặc trưng từ trong tập dữ liệu hỏi đáp Tiếng Việt phục vụ cho việc gom nhóm dữ liệu. Dựa vào kết quả đánh giá gom nhóm thử nghiệm các kỹ thuật tinh chỉnh đặc trưng trên tập dữ liệu thử nghiệm từ đó đưa ra các đặc tính phù hợp của đặc trưng dùng cho việc gom nhóm tập dữ liệu hỏi đáp Tiếng Việt. Từ khóa tinh chỉnh đặc trưng rút trích đặc trưng hệ thống hỏi đáp gom nhóm 1. Giới thiệu Việc tinh chỉnh đặc trưng nhằm làm giảm đáng kể số chiều dữ liệu không những làm nhanh hơn khi thực hiện gom nhóm mà còn làm tăng độ chính xác khi gom nhóm dữ liệu. Chúng tôi sẽ tiến hành đánh giá các kỹ thuật tinh chỉnh đặc trưng trong các tập câu hỏi Tiếng Việt như lọc các hư từ các từ xuất hiện ít các từ xuất hiện nhiều lọc giữ lại danh từ cụm danh từ và động từ phép biến đổi dữ liệu SVD 9 và đánh giá ảnh hưởng của chúng tới quá trình gom nhóm tập dữ liệu câu hỏi Tiếng Việt. Để đánh giá sự ảnh hưởng việc tinh chỉnh đặc trưng trong gom nhóm dữ liệu. Chúng tôi sử dụng các độ đo phản ánh chất lượng nhóm dữ liệu. Ngoài ra thuật toán gom nhóm K-means và sử dụng độ đo Euclidean để tính khoảng cách các phần tử xuyên suốt trong quá trình đánh giá. 2. Tập dữ liệu Để đánh giá các kỹ thuật tinh chỉnh đặc trưng trên tập dữ liệu hỏi đáp Tiếng Việt chúng tôi tiến hành xây dựng bộ dữ liệu thử nghiệm như sau Tập dữ liệu thử nghiệm được thu thập từ website Đối thoại doanh nghiệp thành phố Hồ Chí Minh hiện tại website này có hơn 12000 câu hỏi 3 . Trong đó có 2 tập con Tập thức nhất TH tập hợp những cặp hỏi đáp gồm 4 chủ đề khác nhau bao gồm các sắc thuế trong nội địa kế hoạch amp đầu tư bảo hiểm xã hội và hải quan . Tập thứ hai CST- tập hợp những cặp hỏi đáp trên cùng một chủ đề các sắc thuế trong nội địa . Sau khi thu thập chúng tôi thực hiện các bước tiền xử lí nhằm chỉnh sửa lại dữ liệu theo đúng ý nghĩa vốn có của .
đang nạp các trang xem trước