tailieunhanh - Bài giảng Lập trình cho khoa học dữ liệu - Bài 10: Thư viện scikit- learn

Bài giảng Lập trình cho khoa học dữ liệu - Bài 10: Thư viện scikit- learn cung cấp cho người học những kiến thức như: Mối quan hệ giữa khoa học dữ liệu và Học máy; Một số loại bài toán học máy; Thư viện học máy scikit-learn. Mời các bạn cùng tham khảo! | LOGO LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 10. Thư viện scikit- learn Nội dung 1 Mối quan hệ giữa KHDLvà Học máy 2 Một số loại bài toán học máy 3 Thư viện học máy scikit-learn 4 Bài tập 2 Khoa học Dữ liệu và Học máy Không có sơ đồ nào minh họa đầy đủ mối quan hệ giữa hai khái niệm này Nhiều người chẳng hạn như Nate Silver cho rằng ngành khoa học dữ liệu chỉ là một dạng thống kê 3 Khoa học Dữ liệu và Học máy Học máy là phương pháp quan trọng để xử lý dữ liệu trong ngành data science bên cạnh những phương pháp truyền thống khác 4 Khoa học Dữ liệu và Học máy Quá trình xử lý của khoa học dữ liệu 5 Khoa học Dữ liệu và Học máy Ví dụ hệ thống phát hiện thư rác 1. Thu thập mẫu thư gồm cả thư rác và thư thường 2. Xác định đề bài phân lớp hay đánh giá 3. Xử lý dữ liệu 4. Chọn mô hình học máy phù hợp với bài toán phân loại thư rác 5. Huấn luyện mô hình 6. Hiệu chỉnh tinh chỉnh mô hình 7. Áp dụng thực tế chạy trên email server thực 8. Tiếp tục cập nhật theo phản hồi của người dùng 6 Một số loại bài toán học máy Một số bài toán thực tế Hệ thống phân loại email Nhận dạng chữ viết từ ảnh Ước lượng giá cả của sản phẩm Dự báo thời tiết Đánh giá trạng thái của người qua ảnh video Trả lời tự động chat bot Gợi ý sản phẩm phù hợp với nhu cầu khách hàng Tự động chơi trò chơi Mô phỏng giọng nói của một người nào đó 7 Một số loại bài toán học máy Các lớp bài toán cơ bản Học có giám sát supervised learning học cách tiên đoán đầu ra theo mẫu cho trước Tập mẫu cho trước cho cả đầu bài và kết quả Cho email chỉ rõ trước đâu là spam đâu không phải spam Mô hình được huấn luyện trên tập mẫu Thử nghiệm bằng cách cho đầu bài mô hình tiên đoán kết quả mô hình đoán càng chính xác càng tốt Cho một email mới máy tính đoán xem có phải spam không Có 2 loại cơ bản Hồi quy regression đầu ra là số hoặc vector Phân lớp classification đầu ra thường là xác suất dự báo 8 Một số loại bài toán học máy Các lớp bài toán cơ bản Học không giám sát unsupervised learning tự khai phá các đặc trưng nội tại hợp lý của đầu .