tailieunhanh - Nghiên cứu và thử nghiệm thuật toán phân cụm K-means

Bài viết "Nghiên cứu và thử nghiệm thuật toán phân cụm K-means" đưa ra các bước xây dựng thuật toán phân cục K-means và sử dụng thư viện có sẵn scikit-learn để chạy thử nghiệm thuật toán, đưa ra các hạn chế và ưu điểm của thuật toán này. Mời các bạn cùng tham khảo chi tiết nội dung bài viết! | NGHIÊN CỨU VÀ THỬ NGHIỆM THUẬT TOÁN PHÂN CỤM K-MEANS Đỗ Thuỳ Dương Trường Đại học Hà nội Tóm tắt - Bài báo cáo này đưa ra các bước xây dựng thuật toán phân cục K-means và sử dụng thư viện có sẵn scikit-learn để chạy thử nghiệm thuật toán đưa ra các hạn chế và ưu điểm của thuật toán này. Từ khoá - Học không giám sát phân cụm K-means scikit-learn python 1. Giới thiệu Nếu thuật toán Linear Regression - là thuật toán đơn giản nhất trong học máy có giám sát thì một trong những thuật toán cơ bản nhất trong học máy không giám sát là thuật toán phân cụm K-means. Trong thuật toán K-means clustering chúng ta không biết nhãn label của từng điểm dữ liệu. Mục đích là làm thể nào để phân dữ liệu thành các cụm cluster khác nhau sao cho dữ liệu trong cùng một cụm có tính chất giống nhau. Ví dụ Một công ty muốn tạo ra những chính sách ưu đãi cho những nhóm khách hàng khác nhau dựa trên sự tương tác giữa mỗi khách hàng với công ty đó số năm là khách hàng số tiền khách hàng đã chi trả cho công ty độ tuổi giới tính thành phố nghề nghiệp . Giả sử công ty đó có rất nhiều dữ liệu của rất nhiều khách hàng nhưng chưa có cách nào chia toàn bộ khách hàng đó thành một số nhóm cụm khác nhau. Áp dụng thuật toán phân cụm K-means chúng ta có thể phân nhóm các khách hàng. Sau khi đã phân ra được từng nhóm nhân viên công ty đó có thể lựa chọn ra một vài khách hàng trong mỗi nhóm để quyết định xem mỗi nhóm tương ứng với nhóm khách hàng nào. Phần việc cuối cùng này cần sự can thiệp của con người nhưng lượng công việc đã được rút gọn đi rất nhiều. Ý tưởng đơn giản nhất về cluster cụm là tập hợp các điểm ở gần nhau trong một không gian nào đó không gian này có thể có rất nhiều chiều trong trường hợp thông tin về một điểm dữ liệu là rất lớn . Hình bên dưới là một ví dụ về 3 cụm dữ liệu từ giờ tôi sẽ viết gọn là cluster . 36 Bài toán với 3 clusters. Giả sử mỗi cluster có một điểm đại diện center màu vàng. Và những điểm xung quanh mỗi center thuộc vào cùng nhóm với center đó. Một cách đơn giản nhất xét .

Hải Yến 673 6 pdf

Upload

Bấm vào đây để xem trước nội dung

Tải xuống

TÀI LIỆU LIÊN QUAN

Đồ án tốt nghiệp Thuật toán Phân cụm dữ liệu nửa giám sát

61 726 9

Thuật toán phân cụm K-MI và thuật toán hỗ trợ thử nghiệm phân cụm

17 103 0

Thuật toán phân cụm mờ cộng tác và giảm chiều dữ liệu cho bài toán phân cụm ảnh vệ tinh siêu phổ

6 79 1

Một cải tiến phân cụm mờ với tham số mờ cho từng cụm dữ liệu

6 83 3

So sánh một số thuật toán phân cụm phổ cho dữ liệu biểu diễn Gene

8 132 0

Một phương pháp phân cụm khuôn mặt hiệu quả trên mạng xã hội

6 101 0

Phát hiện sạt lở từ ảnh vệ tinh sử dụng phương pháp phân cụm mờ

7 18 2

Cải tiến thuật toán phân cụm mờ dựa trên độ đo trọng số Entropy và chỉ số Calinski - Harabasz

11 121 0

Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi trắc nghiệm

4 97 2

Đoán nhận gen bằng kỹ thuật phân cụm trong tin học

11 111 1

TÀI LIỆU XEM NHIỀU

Một Case Về Hematology (1)

8 462386 61

Giới thiệu :Lập trình mã nguồn mở

14 27329 79

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11389 543

Câu hỏi và đáp án bài tập tình huống Quản trị học

14 10589 468

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 9870 108

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8914 1161

Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức

16 8539 426

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 8114 2279

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 8077 1836

Đề tài: Dự án kinh doanh thời trang quần áo nữ

17 7324 268

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Giáo trình phân tích phương trình vi phân viết dưới dạng thuật toán đặc tính của hệ thống p1

5 172 1 24-01-2025

BÀI GIẢNG Biến Đổi Năng Lượng Điện Cơ - TS. Hồ Phạm Huy

137 167 1 24-01-2025

Báo cáo y học: "The Factors Influencing Depression Endpoints Research (FINDER) study: final results of Italian patients with depressio"

9 157 1 24-01-2025

Bệnh sán lá gan trên gia súc và cách phòng trị

3 171 1 24-01-2025

Word Games with English 1

65 149 1 24-01-2025

The Ombudsman Enterprise and Administrative Justice

309 152 0 24-01-2025

Phạm trù Chủ nghĩa cá nhân của tư tưởng phương Tây trong sự lý giải của Phan Khôi _1

9 138 0 24-01-2025

ĐỀ LUYỆN THI ĐẠI HỌC MÔN: TIẾNG ANH - SỐ 3

4 140 1 24-01-2025

Báo cáo khoa học: "Tongue carcinoma in an adult Down's syndrome patient: a case report"

4 138 0 24-01-2025

NHÀ MẠC – NAM BẮC TRIỀU (1527-1592)_1

6 130 1 24-01-2025

TÀI LIỆU HOT

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 8114 2279

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 8077 1836

Ebook Chào con ba mẹ đã sẵn sàng

112 4475 1381

Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1

62 6463 1285

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8914 1161

Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu

561 3884 680

Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân

122 3934 616

Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm

274 4833 568

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11389 543

Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe

35 4551 490