tailieunhanh - Tiền xử lý dữ liệu BÀI TẬP THỰC HÀNHKhai thác dữ liệu trên webCHUẨN BỊ DỮ LIỆUTập dữ liệu: horse-colic Địa chỉ: http://archive.ics.uci.edu/ml/machine-learning-databases/horse-colic/horse-colic.data Mô tả: http://archive.ics.uci.edu/ml/machine-learnin

Tiền xử lý dữ liệu BÀI TẬP THỰC HÀNH Khai thác dữ liệu trên web CHUẨN BỊ DỮ LIỆU Tập dữ liệu: horse-colic Địa chỉ: Mô tả: (*) Câu hỏi: 1. Hãy cho biết tập dữ liệu trên lưu trữ thông tin gì? 2. Hãy chuyển dữ liệu từ tập tin sang bảng tính Excel. - Dựa vào mô tả dữ liệu để đặt tên cho các thuộc tính (tức là dòng đầu tiên của sheet). - Lưu lại theo định dạng csv với tên (Weka có thể mở được định dạng csv). 3. Kết hợp thông tin từ . | Tiền xử lý dữ liệu Khai thác dữ liệu trên web BÀI TẬP THỰC HÀNH CHUẨN BỊ DỮ LIỆU Tập dữ liệu horse-colic - Địa chỉ http ml machine-leaming-databases horse-colic - Mô tả http ml machine-learning-databases horse-colic Câu hỏi 1. Hãy cho biết tập dữ liệu trên lưu trữ thông tin gì 2. Hãy chuyển dữ liệu từ tập tin sang bảng tính Excel. - Dựa vào mô tả dữ liệu để đặt tên cho các thuộc tính tức là dòng đầu tiên của sheet . - Lưu lại theo định dạng csv với tên Weka có thể mở được định dạng csv . 3. Kết hợp thông tin từ với mô tả dữ liệu trả lời các câu hỏi sau a. Dữ liệu có bao nhiêu mẫu b. Dữ liệu có bao nhiêu thuộc tính với mỗi thuộc tính cho biết i. Tên thuộc tính ii. Loại thuộc tính iii. Nếu loại thuộc tính là dạng numeric cho biết giá trị trung bình giá trị phương sai. iv. Nếu loại thuộc tính là dạng nominal cho biết Số giá trị phân biệt số giá trị duy nhất. v. Số mẫu bị thiếu giá trị trên thuộc tính này số lượng và phần trăm Yêu cầu trình bày Liệt kê vào 1 bảng. Ví dụ Tên thuộc tính Loại thuộc tính Trung bình số giá trị phân biệt Phương sai số giá trị duy nhất Số mẫu thiếu giá trị Surgery Nominal 2 0 1 0 4. Trong tập dữ liệu có cả thuộc tính số và thuộc tính rời rạc tuy nhiên tất cả đều biểu diễn dưới dạng số. Yêu cầu đặt ra là phải rời rạc hóa các thuộc tính rời rạc để các thuộc tính được mô tả đúng như ý nghĩa của nó. Bên cạnh đó dữ liệu còn có giá trị thiếu nảy sinh Bộ môn KHMT Khoa CNTT ĐH KHTN TP HCM Trang 1 Tiền xử lý dữ liệu Khai thác dữ liệu trên web một yêu cầu nữa là phải điền giá trị cho các ô bị thiếu dữ liệu. Giải quyết 2 vấn đề trên ta sẽ sử dụng đến một số bộ lọc của Weka. Trước tiên hãy trả lời các câu hỏi sau - Hãy cho biết công dụng và phương pháp của 3 bộ lọc trong thư mục Unsupervised- Attribute là NumericToNominal Discretize ReplaceMissingValue. - Theo bạn nên áp dụng các bộ lọc nào trong số 3 bộ lọc trên và

TỪ KHÓA LIÊN QUAN