tailieunhanh - Nghiên cứu và thử nghiệm thuật toán phân cụm K-means

Bài viết "Nghiên cứu và thử nghiệm thuật toán phân cụm K-means" đưa ra các bước xây dựng thuật toán phân cục K-means và sử dụng thư viện có sẵn scikit-learn để chạy thử nghiệm thuật toán, đưa ra các hạn chế và ưu điểm của thuật toán này. Mời các bạn cùng tham khảo chi tiết nội dung bài viết! | NGHIÊN CỨU VÀ THỬ NGHIỆM THUẬT TOÁN PHÂN CỤM K-MEANS Đỗ Thuỳ Dương Trường Đại học Hà nội Tóm tắt - Bài báo cáo này đưa ra các bước xây dựng thuật toán phân cục K-means và sử dụng thư viện có sẵn scikit-learn để chạy thử nghiệm thuật toán đưa ra các hạn chế và ưu điểm của thuật toán này. Từ khoá - Học không giám sát phân cụm K-means scikit-learn python 1. Giới thiệu Nếu thuật toán Linear Regression - là thuật toán đơn giản nhất trong học máy có giám sát thì một trong những thuật toán cơ bản nhất trong học máy không giám sát là thuật toán phân cụm K-means. Trong thuật toán K-means clustering chúng ta không biết nhãn label của từng điểm dữ liệu. Mục đích là làm thể nào để phân dữ liệu thành các cụm cluster khác nhau sao cho dữ liệu trong cùng một cụm có tính chất giống nhau. Ví dụ Một công ty muốn tạo ra những chính sách ưu đãi cho những nhóm khách hàng khác nhau dựa trên sự tương tác giữa mỗi khách hàng với công ty đó số năm là khách hàng số tiền khách hàng đã chi trả cho công ty độ tuổi giới tính thành phố nghề nghiệp . Giả sử công ty đó có rất nhiều dữ liệu của rất nhiều khách hàng nhưng chưa có cách nào chia toàn bộ khách hàng đó thành một số nhóm cụm khác nhau. Áp dụng thuật toán phân cụm K-means chúng ta có thể phân nhóm các khách hàng. Sau khi đã phân ra được từng nhóm nhân viên công ty đó có thể lựa chọn ra một vài khách hàng trong mỗi nhóm để quyết định xem mỗi nhóm tương ứng với nhóm khách hàng nào. Phần việc cuối cùng này cần sự can thiệp của con người nhưng lượng công việc đã được rút gọn đi rất nhiều. Ý tưởng đơn giản nhất về cluster cụm là tập hợp các điểm ở gần nhau trong một không gian nào đó không gian này có thể có rất nhiều chiều trong trường hợp thông tin về một điểm dữ liệu là rất lớn . Hình bên dưới là một ví dụ về 3 cụm dữ liệu từ giờ tôi sẽ viết gọn là cluster . 36 Bài toán với 3 clusters. Giả sử mỗi cluster có một điểm đại diện center màu vàng. Và những điểm xung quanh mỗi center thuộc vào cùng nhóm với center đó. Một cách đơn giản nhất xét .