tailieunhanh - PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ VÀ CÂY QUYẾT ĐỊNH
Bài toán phân loại văn bản, thực chất, có thể xem là bài toán phân lớp. Phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học và khai phá dữ liệu đã được áp dụng vào bài toán phân loại văn bản, chẳng hạn: phương pháp quyết định dựa vào Bayes ngây thơ (Naive Bayes), cây quyết định (decision tree), k–láng giềng gần nhất (KNN), mạng nơron (neural network), . | Tạp chí Khoa học 2012 21a 52-63 Trường Đại học Cần Thơ PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ VÀ CÂY QUYẾT ĐỊNH Trần Cao Đệ và Phạm Nguyên Khang1 ABSTRACT Text document classification basically can be considered as a classification problem. Automatic text document classification is to assign a label to a new document based on the similarity of the document with labeled documents in the training set. Many machine learning and data mining methods have been applied in text document classification such as Naive Bayes decision tree k - Nearest neighbor neural network . Support vector machine SVM is an efficient classification algorithm. It has been applied to machine learning and recognition field. However it is still not efficient in applying to text document classification because by the nature this problem often deals with a large feature space. This paper focuses on applying SVM to text document classification and compares the efficiency of the method with the one of decision tree a traditional classification algorithm. The research illustrates that SVM along with the feature selection based on the singular value decomposition SVD is much better than decision tree method. Keywords Decision tree Support vector machine SVM text document classification single value decomposition SVD Title Text document classification with support vector machine and decision tree TÓM TẮT Bài toán phân loại văn bản thực chất có thể xem là bài toán phân lớp. Phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học và khai phá dữ liệu đã được áp dụng vào bài toán phân loại văn bản chẳng hạn phương pháp quyết định dựa vào Bayes ngây thơ Naive Bayes cây quyết định decision tree k-láng giềng gần nhất KNN mạng nơron neural network . Máy học vectơ hô trợ SVM là một giải thuật phân lớp có hiệu quả cao và đã được áp dụng nhiều trong lĩnh vực khai phá dữ
đang nạp các trang xem trước