tailieunhanh - PHÂN LOẠI DỮ LIỆU GIEN VỚI GIẢI THUẬT MÁY HỌC ARCX4-RODT

Trong bài viết này, chúng tôi trình bày giải thuật máy học mới ArcX4 của cây quyết định ngẫu nhiên xiên phân (ArcX4-rODT). Giải thuật ArcX4-rODT xây dựng tuần tự tập hợp cây xiên phân ngẫu nhiên, cây xây dựng sau sẽ tập trung lên các mẫu bị phân lớp sai bởi các cây trước, mỗi cây thành viên sử dụng siêu phẳng phân chia dữ liệu hiệu quả tại mỗi nút của cây dựa trên phân tích biệt lập tuyến tính. Việc xây dựng cây xiên phân ngẫu nhiên vì thế tạo cho giải thuật có khả năng làm việc tốt trên dữ liệu. | Tạp chí Khoa học 2011 19b 30-38 Trường Đại học Cần Thơ PHÂN LOẠI DỮ LIỆU GIEN VỚI GIẢI THUẬT MÁY HỌC ARCX4-RODT Đặng Quốc Bảo1 Trần Huỳnh Lê2 Đỗ Thanh Nghị3 ABSTRACT In thispaper we propose a new algorithm called ArcX4-rODT ArcX4 of random oblique decision trees to classify gene data which have very small amount of samples in very high dimensions and noise. Our ArcX4-rODT algorithm constructs sequentially k random oblique trees so that each tree concentrates mostly on the errors produced by the previous ones. Furthermore the hyper-plane obtained by Fisher s linear discriminant analysis is also used to perform multivariate splitting data at each internal node of the decision tree. Thus the ArcX4-rODT can deal with very-high-dimensional data and noise. The experimental results on gene datasets from datasets krbd showed that our ArcX4-rODT algorithm outperforms random forest of andSVM LibSVM . Keywords ArcX4 Random oblique decision tree Linear discriminant analysis gene classification Title Classification of Gene Expression using ArcX4-rODTLearning Algorithm TÓM TẮT Trong bài viết này chúng tôi trình bày giải thuật máy học mới ArcX4 của cây quyết định ngâu nhiên xiên phân ArcX4-rODT . Giải thuật ArcX4-rODT xây dựng tuần tự tập hợp cây xiên phân ngâu nhiên cây xây dựng sau sẽ tập trung lên các mâu bị phân lớp sai bởi các cây trước mồi cây thành viên sử dụng siêu phang phân chia dữ liệu hiệu quả tại mồi nút của cây dựa trên phân tích biệt lập tuyến tính. Việc xây dựng cây xiên phân ngâu nhiên vì thế tạo cho giải thuật có khả năng làm việc tốt trên dữ liệu có số chiều lớn và nhiêu như dữ liệu gien. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datasets krbd cho thấy rằng giải thuật ArcX4-rODT mới do chúng tôi đề xuất phân loại tốt hơn khi so sánh với rừng ngâu nhiên của cây quyết định và máy học véctơ hồ trợ. Từ khóa Giải thuật ArcX4 Cây ngẫu nhiên xiên phân Phương pháp phân tích biệt lập tuyến tính

TÀI LIỆU LIÊN QUAN