tailieunhanh - Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 2: Thu thập và tiền xử lý dữ liệu

Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 2: Thu thập và tiền xử lý dữ liệu. Chương này cung cấp cho học viên những nội dung về: thu thập, lựa chọn dữ liệu; tiền xử lý dữ liệu; chuyển đổi; khai phá dữ liệu; giải thích/đánh giá; . Mời các bạn cùng tham khảo chi tiết nội dung bài giảng! | Nhập môn Học máy và Khai phá dữ liệu IT3190 2 Nội dung môn học Lecture 1 Giới thiệu về Học máy và khai phá dữ liệu Lecture 2 Thu thập và tiền xử lý dữ liệu Lecture 3 Hồi quy tuyến tính Linear regression Lecture 4 5 Phân cụm Lecture 6 Phân loại và Đánh giá hiệu năng Lecture 7 dựa trên láng giềng gần nhất KNN Lecture 8 Cây quyết định và Rừng ngẫu nhiên Lecture 9 Học dựa trên xác suất Lecture 10 Mạng nơron Neural networks Lecture 11 Máy vector hỗ trợ SVM Lecture 12 Khai phá tập mục thường xuyên và các luật kết hợp Lecture 13 Thảo luận ứng dụng trong thực tế 3 ĐẶT VẤN ĐỀ Khai phá dữ liệu là một qúa trình phân tích dữ liệu theo nhiều khía cạnh và tổng hợp nó lại để có được thông tin hữu ích hay tri thức. ĐẶT VẤN ĐỀ Các bước của quá trình phát hiện tri thức gồm 1. Thu thập lựa chọn dữ liệu 2. Tiền xử lý dữ liệu 3. Chuyển đổi 4. Khai phá dữ liệu 5. Giải thích Đánh giá ĐẶT VẤN ĐỀ Vì sao phải tiền xử lý dữ liệu Không đầy đủ Incomplete thiếu một vài giá trị thuộc tính . Nhiễu Noisy xuất hiện giá trị lỗi lỗi chủ quan người nhập dữ liệu . Không nhất quán Inconsistent sự khác biệt trong cách phân loại phân biệt hay đơn vị của dữ liệu . ĐẶT VẤN ĐỀ Quy trình tiền xử lý dữ liệu 1. Làm sạch Loại bỏ các giá trị sai kiểm tra tính nhất quan của dữ liệu. 2. Tích hợp Dữ liệu có nhiều nguồn nên cần lưu theo một cách thức thống nhất. 3. Chuyển đổi Chuẩn hóa và tập hợp dữ liệu. 4. Giảm chiều Mô tả dữ liệu trong kích thước nhỏ nhưng không làm mất kết quả cần kiết xuất. ĐẶT VẤN ĐỀ Quy trình tiền xử lý dữ liệu MỤC LỤC Đặt vấn đề Làm sạch dữ liệu Tích hợp Giảm chiều LÀM SẠCH DỮ LIỆU Đây là thủ tục quan trọng gồm ba bước chính 1. Điền đầy các giá trị bị mất 2. Chuốt dữ liệu để loại nhiễu 3. Kiểm tra và sửa tính không nhất quán LÀM SẠCH DỮ LIỆU Bước 1 Điền đầy các giá trị bị mất có thể chọn một trong các phương pháp Bỏ không xét đến bộ dữ liệu bị mất giá trị Điền lại giá trị bằng tay Gán cho giá trị nhãn đặc biệt hay ngoài khoảng biểu diễn Gán giá trị trung bình cho nó. Gán giá trị trung bình .

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.