tailieunhanh - Bài giảng khai phá dữ liệu
Các tiện ích thu thập dữ liệu tự động và công nghệ cơ sở dữ liệu lớn mạnh dẫn tới một lượng lớn dữ liệu được tích lũy và/hoặc cần được phân tích trong cơ sở dữ liệu, kho dữ liệu và trong các nguồn chứa dữ liệu khác. | TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU Giảng viên: ThS. Nguyễn Vương Thịnh Bộ môn: Hệ thống thông tin Hải Phòng, 2012 CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU Thông tin về giảng viên Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@ Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques (the 2nd Edition), Elsevier Inc, 2006. Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009. Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web, NXB Giáo dục, 2009 CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU . KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU? . TÓM TẮT MÔ TẢ DỮ LIỆU . LÀM SẠCH DỮ LIỆU . TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU . RÚT GỌN DỮ LIỆU . KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU . Tại sao phải tiền xử lý dữ liệu? Dữ liệu trong thế giới thực (mà chúng ta muốn phân tích bằng cách áp dụng các kỹ thuật khai phá dữ liệu) thường: Không hoàn chỉnh (incomplete): thiếu vắng các giá trị hoặc các thuộc tính đáng quan tâm, hoặc chỉ chứa các dữ liệu gộp nhóm. Chứa đựng các giá trị nhiễu (noisy): bao gồm các lỗi hoặc các giá trị lệch quá xa ra ngoài phạm vi mong đợi. Không nhất quán (inconsistent). Lý do: Kích thước dữ liệu quá lớn. Được thu thập từ nhiều nguồn khác nhau. ⟹ Chất lượng dữ liệu thấp sẽ dẫn tới những kết quả khai phá tồi. Tiền xử lý dữ liệu là quá trình áp dụng các kỹ thuật nhằm nâng cao chất lượng dữ liệu và từ đó giúp nâng cao chất lượng kết quả khai phá. . Những nguyên nhân ảnh hưởng đến chất . | TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU Giảng viên: ThS. Nguyễn Vương Thịnh Bộ môn: Hệ thống thông tin Hải Phòng, 2012 CHƯƠNG 1: TIỀN XỬ LÝ DỮ LIỆU Thông tin về giảng viên Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@ Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques (the 2nd Edition), Elsevier Inc, 2006. Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009. Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ
đang nạp các trang xem trước