tailieunhanh - PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG VỚI ROUGHLY BALANCED BAGGING
Trong bài báo này, chúng tôi trình bày một cải tiến của giải thuật Roughly Balanced Bagging (Hido & Kashima, 2008) cho việc phân lớp các tập dữ liệu không cân bằng. Chúng tôi đề xuất sử dụng các giải thuật tập hợp mô hình bao gồm Boosting (Freund & Schapire, 1995), Random forest (Breiman, 2001), làm mô hình học cơ sở của giải thuật Roughly Balanced Bagging gốc, thay vì sử dụng một cây quyết định (Quinlan, 1993). Chúng tôi cũng đề xuất điều chỉnh cách lấy mẫu giảm phần tử lớp đa số theo hàm phân phối nhị thức âm ở mỗi lần. Kết. | Tạp chí Khoa học 2011 20b 189-197 Trường Đại học Cần Thơ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG VỚI ROUGHLY BALANCED BAGGING Phan Bích Chung1 và Đô Thanh Nghị2 ABSTRACT In thispaper wepresent a novel improvement of the Roughly Balanced Bagging algorithm Hido Kashima 2008 to deal with the imbalanced data classification. Our proposal use ensemble-based algorithms including Boosting Freund Schapire 1995 Random forest Breiman 2001 as base leaner of the orginal Roughly Balanced Bagging instead of a single decision tree Quinlan 1993 . In addition the distribution in each subset determined by under-sampling of the majority class is belongs to negative binomial distribution function using adjust parameter. The experimental results on imbalanced datasets from UCI repository Asuncion Newman 2007 showed that our proposal outperforms the orginal Roughly Balanced Bagging. Keywords Imbalanced data Roughly Balanced Bagging Bagging Boosting AdaBoost Random Forest Decision Tree Negative binomial distribution Title Classification of imbalanced data with roughly balanced bagging TÓM TẮT Trong bài báo này chúng tôi trình bày một cải tiến của giải thuật Roughly Balanced Bagging Hido Kashima 2008 cho việc phân lớp các tập dữ liệu không cân bằng. Chúng tôi đề xuất sử dụng các giải thuật tập hợp mô hình bao gồm Boosting Freund Schapire 1995 Random forest Breiman 2001 làm mô hình học cơ sở của giải thuật Roughly Balanced Bagging gốc thay vì sử dụng một cây quyết định Quinlan 1993 . Chúng tôi cũng đề xuất điều chỉnh cách lấy mâu giảm phần tử lớp đa số theo hàm phân phối nhị thức âm ở môi lần. Kết quả thực nghiệm trên các tập dữ liệu không cân bằng được lấy từ nguồn UCI Asuncion Newman 2007 cho thấy rằng phương pháp mà chúng tôi đề xuất cho hiệu quả phân loại chính xác hơn khi so sánh với giải Roughly Balanced Bagging gốc. Từ khoá Dữ liệu không cân bằng Roughly Balanced Bagging Bagging Boosting AdaBoost Rừng ngẫu nhiên Cây quyết định Phân phối nhị thức âm 1 GIỚI THIỆU Phân lớp dữ liệu không cân .
đang nạp các trang xem trước