tailieunhanh - Bài giảng Học máy (IT 4862): Chương 1 - Nguyễn Nhật Quang
Chương 1 - Giới thiệu chung. Chương này trình bày những nội dung chính sau: Giới thiệu về học máy, quá trình học máy, các thành phần chính của bài toán học máy, các vấn đề trong học máy, vấn đề over-fitting, các môi trường chính, nội dung chi tiết. | Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@ Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2011-2012 Nội d dung môn ô h học: Giới thiệu chung • Học máy • Công cụ WEKA Đánh giá hiệu năng hệ thống ố học máy Các phương pháp học dựa trên xác suất Các phương pháp học có giám sát Các p phương gp pháp p học ọ không gg giám sát Lọc cộng tác Học tăng cường Học Máy – IT 4862 2 Giới thiệu về Học máy Học máy (Machine Learning – ML) là một lĩnh vực nghiên cứu của Trí tuệ nhân tạo (Artificial Intelligence – AI) Các định nghĩa về học máy → Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [Simon, 1983] → Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [Mitchell, 1997] → Việc ệ lập ập trình các máy y tính để tối ưu hóa một ộ tiêu chí hiệu ệ suất dựa ự trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin, 2004] Biểu diễn một bài toán học máy [Mitchell, 1997] H máy Học á = Cải thiệ thiện hiệu hiệ quả ả một ột công ô việc iệ thông thô qua ki kinh h nghiệm hiệ • Một công việc (nhiệm vụ) T • Đối với các tiêu chí đánh giá hiệu năng P • Thông qua (sử dụng) kinh nghiệm E Học Máy – IT 4862 3 Ví dụ bài toán học máy (1) Lọc thư rác – Email spam filtering • T: Dự đoán (để lọc) những thư điện p email)) tử nào là thư rác ((spam • P: % of các thư điện tử gửi đến được phân loại chính xác • E: Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn bằng một tập thuộc tính (vd: tập từ khó ) và khóa) à nhãn hã lớp lớ (thư (th thường/thư th ờ /th rác) tương ứng Học Máy – IT 4862 Thư rác? Thư thường Thư rác 4 Ví dụ bài toán học máy (2) Phân loại các trang Web T: Phân loại các trang Web theo các chủ đề ề đã định trước P: Tỷ lệ (%) các trang Web được phân loại chính xác E: Một tập E tậ các á trang t W b trong Web, t đó mỗi ỗi trang t W b gắn Web ắ với ới .
đang nạp các trang xem trước