tailieunhanh - Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần

Bài viết đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer. | Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần JOURNAL OF SCIENCE OF HNUE DOI: Educational Sci., 2015, Vol. 60, No. 7A, pp. 94-102 This paper is available online at NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG CÁCH KẾT HỢP SINH THÊM PHẦN TỬ VỚI GIẢM SỐ CHIỀU THUỘC TÍNH DỰA TRÊN BÌNH PHƯƠNG TỐI THIỂU TỪNG PHẦN Nguyễn Thái Bình, Nguyễn Thị Anh Nga, Nguyễn Thị Hồng và Đặng Xuân Thọ Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Ngày nay con người phải đối mặt với lượng thông tin khổng lồ đến từ rất nhiều nguồn khác nhau nhưng những thông tin hữu ích, dữ liệu đáng tin cậy lại chiếm tỉ lệ rất nhỏ. Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số. Việc phân lớp càng trở nên khó khăn hơn khi gặp phải những bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Từ thực tế đó, chúng tôi xin đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer. Qua những kết quả thu được chúng tôi thấy rằng phương pháp mới giúp nâng cao hiệu quả phân lớp dữ liệu vừa có số thuộc tính lớn vừa có tỉ lệ mất cân bằng cao. Từ khóa: Phân lớp; dữ liệu mất cân bằng; dữ liệu có số chiều cao; Bình phương tối thiểu từng phần; sinh thêm phần tử nhân tạo. 1. Mở đầu Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số thuộc tính lớn, thậm chí lên đến hàng nghìn .

TỪ KHÓA LIÊN QUAN