tailieunhanh - Phân cụm nửa giám sát với mô hình phân cấp

Trong bài báo này, tác giả đề xuất một thuật toán theo mô hình phân cấp nhờ kết hợp thuật toán Seeded-Kemean (Basu et al, 2002) với tiêu chuẩn thông tin Bayes để xác định số cụm k và các cụm con. Các thí nghiệm trên bộ dữ liệu chuẩn UCI cho thấy giải pháp này thực sự có ý nghĩa trong việc dự đoán K một cách chính xác mà vẫn giữ được cấu trúc cụm tốt. | PHÂN CỤM NỬA GIÁM SÁT VỚI MÔ HÌNH PHÂN CẤP Hoàng Xuân Huấn Nguyễn Trung Thông Tóm tắt Thuật toán phân cụm K-mean MacQueen 1967 là thuật toán học không giám sát xuất hiện sớm có nhiều biến thể và đang được sử dụng rộng rãi. Mặc dù có nhiều ưu điếm nhược điểm chính cùa các thuật toán này là ỉ chất lượng cùa kết quả phán cụm phụ thuộc vào cách chọn tám ban đầu 2 khó xác định số cụm k. Đế hạn chế các nhược điếm này gần đáy nhiều tác giá giải quyết theo hướng học nửa giám sát trong đó việc phân cụm được thực hiện dựa trên các thông tin bổ sung từ người dùng nhờ đó mà hiệu quá được cái thiện rõ rệt. Tuy vậy đến nay vẫn chưa có phương pháp hiệu quà đê xác định đúng số cụm cho các thuật toán loại k-mean. Trong bài này chúng tôi đề xuất một thuật toán theo mô hình phân cấp nhờ kết hợp thuật toán Seeded-Kmean Basu et al 2002 với tiêu chuẩn thông tin Bayes để xác định sấ cụm k và các cụm con. Các thí nghiệm trên bộ dữ liệu chuẩn UCI cho thay giải pháp này thực sự có ỷ nghĩa trong việc dự đoản K một cách chính xác mà van giữ được cấu trúc cụm tot. 1. GIỚI THIỆU Phân cụm dữ liệu là bải toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu xem 6 7 8 . Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì tưong tự nhạu trong khi các đối tượng trong các cụm khác nhau thì kém tưong tự nhau. Nhược điểm chung của các thuật toán phân cụm là chất lượng phân cụm và số lượng cụm phụ thuộc nhiều vào các tham số và thông tin khởi tạo. Để giảm thiểu các hạn che này gần đây nhiều tác giả xem 1 2 10 giải quyết theo cách tiếp cận nửa giám sát trong đó việc phân cụm được thực hiện nhờ sự hợp tác với người dùng qua các thông tin bổ sung hạn chế nhưng quan trọng. Các thông-tin bổ trợ này có nhiệm vụ trợ giúp và dẫn dắt cho quá trình phân cụm đó mà chất lượng phân cụm được nâng cao rõ rệt. Một hướng tiếp cận được nhiều người sử dụng 2 10 là dùng thuật toán K-mean với thông tin bổ .

TỪ KHÓA LIÊN QUAN