tailieunhanh - Thuật toán phân cụm K-MI và thuật toán hỗ trợ thử nghiệm phân cụm

Bài báo này đề xuất thuật toán phân cụm k-MI (thuật toán phân cụm dựa vào thông tin tương tác (MI - Mutural Information) là một thuật toán phân cụm dữ liệu hỗn hợp theo cách của thuật toán k-mean nhưng là phân cụm có giám sát. Độ đo MI về mức độ quan trọng của từng thuộc tính (đối với các lớp output mang đợi) sẽ được đánh giá như là trọng số của các thuộc tính của các đối tượng cần phân cụm. | Một sổ vấn đề chọn lọc cùa Công nghệ thông ỉin và truyển thỗng Đại Lải 14-15 thảng 9 năm 2007 THUẬT TOÁN PHÂN CỤM K-MI VÀ THUẬT TOÁN HÕ TRỢ THỬ NGHIỆM PHÂN CỤM Nguyễn Chỉ Trung Viện Công nghệ Thông tin - Viện Khoa học và Câng nghệ Việt Nam Bài bảo này đề xuất thuật toán phần cụm k-MI thuật toán phân cụm dựa vào thông tin tương tác MI - Mutual Information là một thuật toán phân cụm dữ liệu hỗn hợp theo cách cùa thuật toán k-mean nhưng là phân cụm có giám sát. Độ đo Mỉ về mức độ quan trọng của từng thuộc tinh đổi với các lớp output mong đợi sẽ được đảnh giả như là trọng sẩ của các thuộc tỉnh của các đoi tượng cần phân cụm. Kết quả thử nghiệm cho thấy k-MI nói chung phân cụm tểt hơn các thuật toán kiểu k-mean không giảm sát. Bài hảo còn đề xuất một thuật toán hỗ trợ thừ nghiệm phân cụm dựa vào thuật toán tìm tập cặp ghép đầy đủ tổi ưu trên đồ thị hai phía của Kuhn Munkres làm nhiệm vụ ảnh xạ tện cùa các cụm output thực tể vởi tên của các cụm output chuẩn sao cho cỏ lợi nhất đổi với việc đảnh giá hiệu quả thuật toán 1. Giới thiệu Đài toán phân cụm một tập dữ liệu thành các tập con sao cho các đổi tượng trong cùng một tập con thì giống nhau các đối tượng thuộc các tập con khác nhau thì khác nhau là một bài toán quan trọng trong khám phá tri thức từ dữ liệu. Các bài toán phân cụm lại chia thành hai lớp bài toán phân cụm không giám sát và phân cụm cógiám sát. Các thuật toán phân cụm có giám sát nhìn chung thường có hiệu quả cao hơn so với các thuật toán phân cụm không giám sát. Thuật toán k-mean ban đầu vào năm 1967 do MacQeen 1 đề xuất là thuật toán phân cụm không giám sát một tập dữ liệu gồm n đối tượng có m thuộc tỉnh số thành k k n cụm. Các cải thiện về thuật toán k-mean sau này đã được xem xét trên vài khỉa cạnh. Trước hết phải kể đến sự nghiên cứu về đối tượng để biểu diễn cho cụm ví dụ như thuật toán PAM cùa Kaufman và Rousseeuw 2 đã đưa ra các thể hiện của các cụm là các medoids và bước tiếp theo Kaufman đã đề xuất thuật toán CLARA để khống chế được tập dữ liệu .

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.