tailieunhanh - Báo cáo " Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest "

Phân tích thành phần chính (PCA) là một phương pháp khá nổi tiếng và hiệu quả trong quá trình làm giảm số thuộc tính của tập dữ liệu đầu vào. Hiện nay phương pháp hàm nhân đã được dùng để tăng khả năng áp dụng PCA khi giải quyết các bài toán phi tuyến. Phương pháp này đã được Scholkhof và đồng nghiệp của ông đưa ra với tên gọi là KPCA. Trong bài báo này chúng tôi sẽ trình bày một cách tiếp cận mới dựa trên hàm nhân để có thể chọn ra những thuộc tính tốt nhất. | Tạp chí Khoa học ĐHQGHN Khoa học Tự nhiên và Công nghệ 25 2009 84-93 Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest Nguyễn Hà Nam Khoa Công Nghệ Thông Tin Trường ĐH Công Nghệ ĐHQGHN 144 Xuân Thủy Hà Nội Việt Nam Nhận ngày 2 tháng 4 năm 2007 Tóm tắt. Phân tích thành phần chính PCA là một phương pháp khá nổi tiếng và hiệu quả trong quá trình làm giảm số thuộc tính của tập dữ liệu đầu vào. Hiện nay phương pháp hàm nhân đã được dùng để tăng khả năng áp dụng PCA khi giải quyết các bài toán phi tuyến. Phương pháp này đã được Scholkhof và đồng nghiệp của ông đưa ra với tên gọi là KPCA. Trong bài báo này chúng tôi sẽ trình bày một cách tiếp cận mới dựa trên hàm nhân để có thể chọn ra những thuộc tính tốt nhất để tăng khả năng phân lớp của thuật toán Random Forest RF . Chúng tôi đã sử dụng giải thuật di truyền để tìm ra hàm nhân tối ưu cho việc tìm ra cách chuyển đổi phi tuyến tốt nhất nhằm làm tăng khả năng phân lớp của RF. Cách tiếp cận của chúng tôi về cơ bản đã tăng khả năng phân lớp của giải thuật RF. Không chỉ tăng được khả năng phân lớp cho thuật toán RF phương pháp đề nghị còn cho thấy khả năng phân lớp tốt hơn một số phương pháp trích chọn đã được công bố. Từ khóa PCA Hàm nhân KPCA Random Forest trích chọn thuộc tính. 1. Giới thiệu Trong lĩnh vực nghiên cứu về khai phá dữ liệu nói chung cũng như trong nghiên cứu về các thuật toán phân lớp nói riêng vấn đề xử lý dữ liệu lớn ngày càng trở thành vấn đề cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán thực tế. Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết được với một lượng số liệu giới hạn cũng như với một độ phức tạp dữ liệu biết trước. Trong khi đó lượng dữ liệu mà chúng ta thu thập được ngày càng trở nên phong phú và đa dạng nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật. Mặc Tel 84-4-37547813. E-mail namnh@ dù rất nhiều kỹ thuật khai phá dữ liệu dựa trên một số nền tảng lý thuyết khác nhau đã .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN