tailieunhanh - Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 11 - Trương Xuân Nam

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 11 Thư viện scikit-learn cung cấp cho người học những kiến thức như: Mối quan hệ giữa Khoa học Dữ liệu và Học máy; Một số loại bài toán học máy; Thư viện học máy scikit-learn. Mời các bạn cùng tham khảo! | NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU Bài 11 Thư viện scikit-learn Nội dung 1. Mối quan hệ giữa Khoa học Dữ liệu và Học máy 2. Một số loại bài toán học máy 3. Thư viện học máy scikit-learn 4. Bài tập TRƯƠNG XUÂN NAM 2 Phần 1 Mối quan hệ giữa Khoa học Dữ liệu và Học máy TRƯƠNG XUÂN NAM 3 Khoa học dữ liệu là gì Hầu hết các ngành khoa học từ xưa đến nay đều giải quyết vấn đề dựa trên lập luận và tri thức Ngành toán dựa trên các mệnh đề công thức lập luận để chứng minh bài toán Ngành vật lý dựa trên các quan sát thực nghiệm tính toán kiểm chứng các giả thiết Ngành hóa học Ta gọi các ngành khoa học này là knowledge-driven dẫn dắt bởi tri thức Có ngành có chút ngoại lệ ví dụ ngành xác suất TRƯƠNG XUÂN NAM 4 Khoa học dữ liệu là gì Với quan điểm như vậy tất cả những quan sát mà không được chứng minh chặt chẽ thường được cho là không khoa học Chẳng hạn chuồn chuồn bay thấp thì mưa Khoa học dữ liệu Khoa học thông thường ở quan điểm tìm tri thức từ dữ liệu dẫn dắt bởi dữ liệu data-driven Chúng ta rút ra tri thức bằng việc tìm tòi từ dữ liệu chứ không nhất thiết phải chứng minh nó Tất nhiên tri thức tìm ra phải có tính ổn định luôn có cùng kết quả nếu sử dụng cùng một phương pháp TRƯƠNG XUÂN NAM 5 Khoa học Dữ liệu và Học máy Không có sơ đồ nào minh họa đầy đủ mối quan hệ giữa hai khái niệm này Nhiều người chẳng hạn như Nate Silver cho rằng ngành khoa học dữ liệu chỉ là một dạng thống kê TRƯƠNG XUÂN NAM 6 Khoa học Dữ liệu và Học máy Học máy là phương pháp quan trọng để xử lý dữ liệu trong ngành data science bên cạnh những phương pháp truyền thống khác TRƯƠNG XUÂN NAM 7 Quá trình xử lý của khoa học dữ liệu TRƯƠNG XUÂN NAM 8 Ví dụ hệ thống phát hiện thư rác 1. Thu thập mẫu thư gồm cả thư rác và thư thường 2. Xác định đề bài phân lớp hay đánh giá 3. Xử lý dữ liệu 4. Chọn mô hình học máy phù hợp với bài toán phân loại thư rác 5. Huấn luyện mô hình 6. Hiệu chỉnh tinh chỉnh mô hình 7. Áp dụng thực tế chạy trên email server thực 8. Tiếp tục cập nhật theo phản hồi của người dùng TRƯƠNG