tailieunhanh - Phương pháp lấy mẫu thuộc tính mới trong rừng ngẫu nhiên cho phân tích dữ liệu SNP

Trong bài báo này đề xuất một phương pháp lấy mẫu hai bước để lựa chọn các đặc trưng có ý nghĩa trong việc huấn luyện mô hình rừng ngẫu nhiên. Phương pháp này cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích (bệnh), do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Mời bạn đọc tham khảo. | J. Sci. Devel. 2015 Vol. 13 No. 2 301-307 Tạp chí Khoa học và Phát triển 2015 tập 13 số 2 301-307 PHƯƠNG PHÁP LẤY MẪU THUỘC TÍNH MỚI TRONG RỪNG NGẪU NHIÊN CHO PHÂN TÍCH DỮ LIỆU SNP Nguyễn Văn Hoàng Phan Thị Thu Hồng Nguyễn Thanh Tùng Nguyễn Thị Thủy Khoa Công nghệ thông tin Học viện Nông nghiệp Việt Nam Email nvhoang@ Ngày gửi bài Ngày chấp nhận TÓM TẮT Gần đây các nghiên cứu liên kết mức toàn hệ gen GWAS đã đạt được thành công trong việc xác định một số biến thể di truyền có ảnh hưởng tương đối lớn tới một số bệnh phức tạp. Hầu hết các GWAS sử dụng các tiếp cận đơn SNP đa hình đơn nucleotide chỉ tập trung vào việc đánh giá sự liên hệ giữa từng SNP riêng biệt với bệnh. Tuy nhiên trên thực tế các bệnh phức tạp được cho là liên quan tới những nguyên nhân phức tạp bao gồm những tương tác rắc rối giữa nhiều SNPs. Do đó cần có những cách tiếp cận khác để xác định sự ảnh hưởng của các SNP hoặc những tương tác phức tạp của các SNP tới bệnh. Phương pháp rừng ngẫu nhiên Random Forest RF gần đây đã được ứng dụng thành công trong GWAS cho việc xác định một số nhân tố di truyền có ảnh hưởng lớn tới một số bệnh phức tạp. Mặc dù RF xử lý tốt trên khía cạnh chính xác dự đoán trên một số tập dữ liệu có kích cỡ trung bình nhưng mô hình RF truyền thống có nhiều hạn chế trong việc xác định các SNPs có ý nghĩa và xây dựng các mô hình dự đoán chính xác. Trong bài báo này chúng tôi đề xuất một phương pháp lấy mẫu hai bước để lựa chọn các đặc trưng có ý nghĩa trong việc huấn luyện mô hình rừng ngẫu nhiên. Phương pháp này cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích bệnh do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Chúng tôi cũng tiến hành các thực nghiệm trên hai tập dữ liệu chuẩn SNP ở mức toàn bộ hệ gen để làm sáng tỏ hiệu quả của phương pháp đề xuất. Từ khóa Genome-wide Association Study học máy khai phá dữ liệu rừng ngẫu nhiên A New Feature Sampling Method in Learning

TỪ KHÓA LIÊN QUAN