tailieunhanh - Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tử
Bài viết đã đánh giá tính phức tạp của tập mẫu huấn luyện khi trích chọn từ dữ liệu nghiệp vụ thông qua việc phân tích tính đa dạng của miền trị thuộc tính. Bài viết cũng đã chỉ ra tính phức tạp khi định lượng giá trị ngôn ngữ đặc biệt là các giá trị ngôn ngữ ngoại lai trong tập mẫu huấn luyện. | Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tử Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Một phƣơng pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tử A method for handling outliers in training data set to build a decision tree based on hedge algebra Lê Văn Tƣờng Lân, Nguyễn Mậu Hân, Nguyễn Công Hào Abstract: In this paper we propose a method to các tập mẫu tƣơng ứng M1, M2, , Mk và sau đó lại tiếp handle the outliers of the fuzzy fileds in the sample tục. training dataset that based on hedge algebra. Due to Đây là bƣớc phân chia với kết quả nhận đƣợc từ the value of the attribute domain may be value or Bước 1, điều này có nghĩa là chất lƣợng của cây kết linguistic so we need a method of approximate data in quả phụ thuộc phần lớn vào cách chọn thuộc tính và a simple way and effective to handle outliers of it. cách phân chia các mẫu tại mỗi nút. Chính vì điều này, Keyword: Hedge algebra, decision tree, fuzzy các thuật toán đều phải tính lƣợng thông tin nhận đƣợc decision tree, training data set. trên các thuộc tính và chọn thuộc tính tƣơng ứng có lƣợng thông tin tốt nhất để làm nút phân tách trên cây, I. ĐẶT VẤN ĐỀ nhằm để đạt đƣợc cây có ít nút nhƣng có khả năng dự Trong bài toán khai phá dữ liệu thì việc chọn đúng đoán cao [2,17]. tập mẫu huấn luyện là một trong những giai đoạn rất Trong thế giới thực, dữ liệu nghiệp vụ rất đa dạng vì quan trọng, nó quyết định kết quả của công việc khai chúng đƣợc lƣu trữ để phục vụ nhiều công việc khác phá. Bài toán xây dựng cây quyết định cũng là một bài nhau, nhiều thuộc tính đã đƣợc thuần nhất miền giá trị toán của khai phá dữ liệu nên vấn đề chọn tập mẫu trƣớc khi lƣu trữ nhƣng cũng tồn tại nhiều thuộc tính huấn luyện cây là vấn đề cần phải giải quyết. có miền trị chƣa thuần nhất [5,7,20]. Khi các thuộc tính .
đang nạp các trang xem trước