tailieunhanh - Bài giảng Khai phá dữ liệu: Bài 4 - TS. Trần Mạnh Tuấn

Bài giảng Khai phá dữ liệu: Bài 4 Phân cụm dữ liệu cung cấp cho người học những kiến thức như: Tổng quan; Các tiếp cận trong phân cụm; Các thuật toán phân cụm. Mời các bạn cùng tham khảo! | KHAI PHÁ DỮ LIỆU Bài 4. Phân cụm dữ liệu Giáo viên TS. Trần Mạnh Tuấn Bộ môn Hệ thống thông tin Khoa Công nghệ thông tin Email tmtuan@ Điện thoai 1 Nội dung Tổng quan Các tiếp cận trong phân cụm Các thuật toán phân cụm 2 Tổng quan Bài toán tình huống ngoại lai 3 Tổng quan Bài toán tình huống biên và nhiễu 4 Tổng quan Tình huống phân cụm ảnh 5 Tổng quan Tình huống 6 Tổng quan 7 Tổng quan PCDL là một lĩnh vực liên ngành đang được phát triển mạnh mẽ. Ở một mức cơ bản nhất đưa ra định nghĩa PCDL như sau 10 11 quot PCDL là một kỹ thuật trong DATA MINING nhằm tìm kiếm phát hiện các cụm các mẫu dữ liệu tự nhiên tiềm ẩn quan tâm trong tập dữ liệu lớn từ đó cung cấp thông tin tri thức hữu ích cho ra quyết định quot 8 Tổng quan Như vậy PCDL là quá trình phân chia một tập DL ban đầu thành các cụm DL sao cho Các phần tử trong một cụm quot tương tự quot Similar nhau. Các phần tử trong các cụm khác nhau sẽ quot phi tương tự quot Dissimilar nhau. Số các cụm được xác định trước theo kinh nghiệm hoặc tự động. 9 Tổng quan Các hướng tiếp cận trong phân cụm Trong học máy PCDL được xem là vấn đề học không có giám sát. Nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các DL chưa biết trước các thông tin về lớp tập VDHL. Nhiều trường hợp khi phân lớp Classification được xem là học có giám sát thì PCDL là một bước trong phân lớp DL. Trong đó PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dl. 10 Tổng quan Các hướng tiếp cận trong phân cụm Vấn đề thường gặp trong PCDL là hầu hết các DL cần phân cụm đều có DL quot nhiễu quot noise do quá trình thu thập thiếu chính xác không đầy đủ. Cần phải xây dựng chiến lược cho bước tiền xử lý DL để loại bỏ quot nhiễu quot trước khi bước vào giai đoạn phân tích PCDL. Kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị các thuộc tính của đối tượng quot nhiễu quot bằng giá trị thuộc tính tương ứng của đối tượng DL gần nhất. 11 Tổng quan Các hướng tiếp cận trong phân cụm Tìm phần tử ngoại lai .

TỪ KHÓA LIÊN QUAN