tailieunhanh - Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Phân lớp đối với dữ liệu mất cân bằng là một bài toán có ý nghĩa quan trọng trong thực tế và đang trở thành xu hướng tiếp cận mới của nhiều nhà nghiên cứu. Đặc biệt, trong chẩn đoán y học, số người mắc bệnh chỉ chiếm tỉ lệ rất nhỏ trên tổng số người dân nên khả năng phát hiện người mắc bệnh gặp nhiều khó khăn hoặc sai lệch lớn, gây ra hậu quả nghiêm trọng, thậm chí ảnh hưởng tới tính mạng con người. | Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng JOURNAL OF SCIENCE OF HNUE DOI: Educational Sci., 2015, Vol. 60, No. 7A, pp. 103-111 This paper is available online at PHƯƠNG PHÁP MỚI DỰA TRÊN ĐƯỜNG BIÊN VÀ VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG 1 Khúc Quỳnh Hương, 2 Đào Thu Hiền, 1 Nguyễn Thị Hồng và 1 Đặng Xuân Thọ 1 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội 2 Khoa Toán-tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Phân lớp đối với dữ liệu mất cân bằng là một bài toán có ý nghĩa quan trọng trong thực tế và đang trở thành xu hướng tiếp cận mới của nhiều nhà nghiên cứu. Đặc biệt, trong chẩn đoán y học, số người mắc bệnh chỉ chiếm tỉ lệ rất nhỏ trên tổng số người dân nên khả năng phát hiện người mắc bệnh gặp nhiều khó khăn hoặc sai lệch lớn, gây ra hậu quả nghiêm trọng, thậm chí ảnh hưởng tới tính mạng con người. Vì vậy, hiệu quả phân lớp mất cân bằng đòi hỏi phải có tính chính xác cao. Phương pháp tiền xử lí dữ liệu là một hướng giải quyết phổ biến và đạt kết quả tốt. Bài báo này sẽ giới thiệu một số phương pháp tiếp cận trong phân lớp dữ liệu mất cân bằng như Random Oversampling và Random Undersampling. Từ đó, đề xuất một phương pháp mới dựa trên khái niệm đường biên và vùng an toàn nhằm nâng cao hiệu quả phân lớp. Thuật toán mới được cải tiến dựa trên sự kết hợp từ hai thuật toán Random Boder Oversampling và Random Safe Undersampling nghĩa là đồng thời tăng thêm các phần tử trên đường biên ở lớp thiểu số và loại bỏ các phần tử an toàn ở lớp đa số một cách ngẫu nhiên. Chúng tôi đã cài đặt thuật toán và thực nghiệm trên các bộ dữ liệu chuẩn quốc tế UCI: Yeast, Breast-p, Glass và Pima. Ví dụ, kết quả phân lớp dữ liệu Yeast có chỉ số G-mean của dữ liệu nguyên gốc là 18,85% nhưng khi áp dụng Random Oversampling, Random Undersamling, Random Safe Oversampling, Random

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.