tailieunhanh - Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông

Bài viết đề xuất một mô hình học máy cho bài toán phân lớp trên tập dữ liệu mất cân bằng, trong đó sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE và giải thuật AdaBoost cho thuật toán Cây quyết định. | Trường Đại học Vinh Tạp chí khoa học Tập 49 - Số 2A 2020 tr. 47-56 ỨNG DỤNG KỸ THUẬT HỌC MÁY TRÊN DỮ LIỆU MẤT CÂN BẰNG HỖ TRỢ DỰ ĐOÁN SỚM KHẢ NĂNG THÔI HỌC CỦA HỌC SINH TRUNG HỌC PHỔ THÔNG Võ Đức Quang 1 Nguyễn Thị Lan Anh 2 Mai Hồng Mận 3 Cao Thanh Sơn 4 1 Viện Kỹ thuật và Công nghệ Trường Đại học Vinh Nghiên cứu sinh Trường Đại học Bách Khoa Hà Nội 2 Trường THPT Đông Hiếu Thái Hòa Nghệ An 3 Lớp 58K4 Công nghệ thông tin Viện Kỹ thuật và Công nghệ Trường Đại học Vinh 4 Viện Kỹ thuật và Công nghệ Trường Đại học Vinh Ngày nhận bài 29 5 2020 ngày nhận đăng 13 7 2020 Tóm tắt Bài báo đề xuất một mô hình học máy cho bài toán phân lớp trên tập dữ liệu mất cân bằng trong đó sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE và giải thuật AdaBoost cho thuật toán Cây quyết định. Các tác giả đã tiến hành thực nghiệm đánh giá so sánh hiệu quả phân lớp của mô hình đã đề xuất với các giải thuật Cây quyết định sử dụng entropy và chỉ số Gini trên bộ dữ liệu thực tế thu thập tại Trường trung học phổ thông THPT Đông Hiếu Thái Hòa Nghệ An từ năm 2014 đến năm 2019. Kết quả nghiên cứu có thể sử dụng làm nền tảng để xây dựng ứng dụng hỗ trợ dự đoán sớm khả năng thôi học của học sinh THPT có ý nghĩa góp phần nâng cao chất lượng giáo dục đào tạo của nhà trường và các cấp quản lý giáo dục. Từ khóa Học máy khai phá dữ liệu dữ liệu mất cân bằng Cây quyết định AdaBoost SMOTE. 1. Mở đầu Phân lớp dữ liệu là một bài toán phổ biến trong các ứng dụng khai phá dữ liệu xây dựng các hệ dự đoán dự báo hay khuyến nghị. nhằm hỗ trợ con người trong nhiều lĩnh vực của đời sống. Các phương pháp giải quyết bài toán phân lớp thường sử dụng mô hình dạng luật hoặc sử dụng các giải thuật học máy như Cây quyết định Mạng nơ-ron Naïve Bayes Support Vector Machines Trong nhiều trường hợp các giải thuật này không đạt hiệu quả cao khi các bộ dữ liệu có sự chênh lệch lớn về số lượng mẫu học của các nhãn lớp gọi là bộ dữ liệu mất cân bằng. Trong bộ dữ liệu đó nhãn lớp có số lượng mẫu học lớn được gọi là lớp đa số nhãn .

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.