tailieunhanh - Thuật toán HMU trong bài toán phân lớp dữ liệu mất cân bằng

Phân lớp dữ liệu mất cân bằng là một bài toán quan trọng trong thực tế. Nhiều phương pháp đã được nghiên cứu nhằm nâng cao hiệu suất của bài toán phân lớp này. Trong bài báo này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử (Undersampling) dựa trên giá trị lề giả thuyết (hypothesis margin) của các đối tượng thuộc lớp đa số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng | THUẬT TOÁN HMU TRONG BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG NGUYỄN THỊ LAN ANH Trường Đại học Sư phạm, Đại học Huế ĐT: 0120 372 5257, Email: lananh257@ Tóm tắt: Phân lớp dữ liệu mất cân bằng là một bài toán quan trọng trong thực tế. Nhiều phương pháp đã được nghiên cứu nhằm nâng cao hiệu suất của bài toán phân lớp này. Trong bài báo này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử (Undersampling) dựa trên giá trị lề giả thuyết (hypothesis margin) của các đối tượng thuộc lớp đa số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng. Từ khóa: Dữ liệu mất cân bằng, phương pháp làm giảm số lượng phần tử, lề giả thuyết, Hypothesis margin 1. GIỚI THIỆU Trong những năm trở lại đây, vấn đề dữ liệu mất cân bằng là một trong những vấn đề quan trọng và đã nhận được nhiều sự quan tâm của các nhà nghiên cứu trên thế giới. Một tập dữ liệu được gọi là mất cân bằng khi số lượng phần tử thuộc về một nhãn lớp bé hơn nhiều so với các nhãn lớp khác. Trong phạm vi bài báo này chúng tôi chỉ đề cập đến bài toán phân loại hai lớp. Trong trường hợp đó, lớp có số lượng phần tử ít hơn được gọi là lớp thiểu số và lớp còn lại được gọi là lớp đa số. Bài toán phân lớp dữ liệu mất cân bằng là một bài toán phổ biến trong thực tế, nhằm phát hiện các đối tượng hiếm nhưng quan trọng, chẳng hạn như bài toán phát hiện gian lận, phát hiện vị trí tràn dầu trên biển dựa vào ảnh chụp vệ tinh, các bài toán trong lĩnh vực tin sinh học như bài toán dự đoán cấu trúc protein, dự đoán tương tác giữa proteinprotein, phân lớp microRNA , cũng như các bài toán chẩn đoán bệnh trong y học. Trong một số trường hợp, tỷ lệ giữa các phần tử thuộc lớp thiểu số so với các phần tử thuộc lớp đa số có thể lên đến 1:100 hoặc 1:100,000 [1]. Khi áp dụng các thuật toán phân lớp truyền thống lên các tập dữ liệu mất cân bằng, đa số các phần tử thuộc lớp đa số sẽ được phân lớp đúng và các phần tử thuộc lớp thiểu số cũng sẽ được gán nhãn lớp là nhãn lớp của lớp đa số. Điều này dẫn đến kết quả là accuracy .

TỪ KHÓA LIÊN QUAN