Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Công Nghệ Thông Tin
Cơ sở dữ liệu
A new method based on clustering improves the efficiency of imbalanced data classification
tailieunhanh - A new method based on clustering improves the efficiency of imbalanced data classification
In this paper, in order to increase the accuracy of the prediction model in imbalanced data classification problem, we propose a new cluster-based sampling method to address this work. Performing tests on a number of datasets, we have achieved important results when compared to cases without using any data balancing strategies and previous method. | HNUE JOURNAL OF SCIENCE Natural Sciences 2020 Volume 65 Issue 4A pp. 33-41 This paper is available online at http A NEW METHOD BASED ON CLUSTERING IMPROVES THE EFFICIENCY OF IMBALANCED DATA CLASSIFICATION Nguyen Thi Hong and Dang Xuan Tho Faculty of Information Technology Hanoi National University of Education Abstract. Classification of data imbalance is an important problem in practice and is becoming a new approach for many researchers. In particular in the diagnosis of medicine the number of ill people accounts for only a very small percentage of the total number of people so the ability to detect people with many difficulties or major deviations causing serious consequences even affect human life. Therefore the efficiency of classification imbalance requires high accuracy and the preprocessing method of data is a common solution with good results. This paper will introduce some approaches in imbalanced data classification propose a new method based on cluster data. We have installed this method and experimented on UCI international data sets Blood Glass Haberman Heart Pima and Yeast. For example the result of classification with Yeast data G-mean of original data is but when applying the new method it has increased to . The experimental results show that the new method increases the classification efficiency of data significantly. Keywords imbalanced data classification Data mining Clustering based undersampling. 1. Introduction Many classification algorithms published such as k-nearest neighbors Decision trees Naïve Bayes Support vector machines. These are the standard algorithms applied to balance classification cases and has been tested experimentally. However applying these algorithms to data where the large disparity in the number of samples in classes is not effective 1-3 . Therefore new approaches need to be taken in case of data imbalance. A data imbalance is a case where data have a significant difference in the number of
Quế Chi
50
9
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Handling imbalanced data in intrusion detection systems using generative adversarial networks
13
38
2
A new method based on clustering improves the efficiency of imbalanced data classification
9
34
1
Comparison of mortality prediction models for road traffic accidents: An ensemble technique for imbalanced data
10
1
1
Quality control of imbalanced mass spectra from isotopic labeling experiments
12
26
1
A new hybrid method to improve the effectiveness of cancer data classification
9
47
1
A balanced iterative random forest for gene selection from microarray data
10
26
1
Data balancing methods by fuzzy rough sets
20
41
2
Hellinger distance-based stable sparse feature selection for high-dimensional class-imbalanced data
14
58
1
A hybrid model for predicting missile impact damages based on K-nearest neighbors and bayesian optimization
14
41
1
Prediction of aptamer-protein interacting pairs using an ensemble classifier in combination with various protein sequence attributes
13
37
1
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
461887
55
Giới thiệu :Lập trình mã nguồn mở
14
22723
61
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10906
530
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10083
447
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9540
104
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8302
1127
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8248
423
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7867
2220
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
6713
253
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
5795
1391
TỪ KHÓA LIÊN QUAN
Cơ sở dữ liệu
Imbalanced data classification
Data mining
Clustering based undersampling
Main Drawback
Priority Center method
Hybrid method
Cancer data classification
Effectiveness of cancer data classification
Synthetic Minority Over sampling Technique
TÀI LIỆU MỚI ĐĂNG
TƯƠNG QUAN GIỮA MÔ HỌC, GIẢI PHẪU VÀ HÌNH ẢNH CỦA CÁC KHỐI U PHẦN PHỤ
3
169
0
01-05-2024
THE ANTHROPOLOGY OF ONLINE COMMUNITIES BY Samuel M.Wilson and Leighton C. Peterson
19
148
0
01-05-2024
Lịch sử Đội TNTP Hồ Chí Minh - CHƯƠNG III VÂNG LỜI BÁC DẠY, LÀM NGHÌN VIỆC TỐT, CHỐNG MỸ, CỨU NƯỚC, THIẾU NIÊN SĂN SÀNG
45
138
0
01-05-2024
Đề tài: Tìm hiểu một số yêu cầu đặt ra với một phòng thu âm, để đảm bảo chất lượng âm thanh trong sản phẩm đa phương tiện
8
162
1
01-05-2024
Kỹ thuật nuôi cá rồng part 5
7
128
0
01-05-2024
Báo cáo nghiên cứu nông nghiệp " Biofertiliser inoculant technology for the growth of rice in Vietnam: Developing technical infrastructure for quality assurance and village production for farmers "
12
88
0
01-05-2024
Hướng dẫn chế độ dinh dưỡng cho người bệnh viêm khớp
5
121
0
01-05-2024
Bài giảng hệ điều hành : HỆ ĐIỀU HÀNH NÂNG CAO part 4
6
114
0
01-05-2024
Kiến thức vượt qua kì thi quốc gia 11
6
99
0
01-05-2024
Tổng hợp Đề thi học sinh giỏi môn Sinh lớp 9 cấp huyện vòng 1 năm 2010-2011
12
177
1
01-05-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7867
2220
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
5795
1391
Ebook Chào con ba mẹ đã sẵn sàng
112
3772
1233
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
5334
1136
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8302
1127
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3518
644
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10906
530
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3695
525
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4071
516
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4136
480
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.