tailieunhanh - So sánh một số thuật toán phân cụm phổ cho dữ liệu biểu diễn Gene
Bài viết So sánh một số thuật toán phân cụm phổ cho dữ liệu biểu diễn Gene trình bày các thuật toán phân cụm phổ là một trong những thuật toán hiệu quả nhất để phân chia các gene thành các nhóm theo mức độ tương tự biểu diễn gene của chúng. Những phân nhóm như thế có thể đề xuất những gene tương ứng tương quan và/hoặc cùng được điều hòa và dẫn đến chỉ ra những gene đó có thể chia sẻ một vai trò sinh học chung,. . | J. Sci. & Devel. 2015, Vol. 13, No. 6: 1008-1015 Tạp chí Khoa học và Phát triển 2015, tập 13, số 6: 1008-1015 SO SÁNH MỘT SỐ THUẬT TOÁN PHÂN CỤM PHỔ CHO DỮ LIỆU BIỂU DIỄN GENE Hoàng Thị Thanh Giang*, Nguyễn Thị Thúy Hạnh, Nguyễn Hoàng Huy Khoa Công nghệ Thông tin, Học viện Nông nghiệp Việt Nam Email*: httgiang@ Ngày gửi bài: Ngày chấp nhận: TÓM TẮT Các thuật toán phân cụm phổ là một trong những thuật toán hiệu quả nhất để phân chia các gene thành các nhóm theo mức độ tương tự biểu diễn gene của chúng. Những phân nhóm như thế có thể đề xuất những gene tương ứng tương quan và/hoặc cùng được điều hòa và dẫn đến chỉ ra những gene đó có thể chia sẻ một vai trò sinh học chung. Trong bài báo này, ba thuật toán phân cụm phổ phổ biến nhất được nghiên cứu: phân cụm phổ không chuẩn hóa, phân cụm phổ chuẩn hóa theo Shi và Malik (2000), phân cụm phổ chuẩn hóa theo Ng et al. (2002). Những thuật toán này được so sánh với nhau. Hiệu năng của ba thuật toán này được nghiên cứu trên dữ liệu chuỗi thời gian của biểu diễn gene sử dụng khoảng cách xoắn thời gian động (DTW) để đo độ tương tự giữa những hồ sơ thể hiện gene. Bốn độ đo hiệu lực phân cụm khác nhau được sử dụng để đánh giá các thuật toán phân cụm: Độ đo liên kết (Connectivity) và chỉ số Silhouette (Silhouette Index) để ước lượng chất lượng của phân cụm, chỉ số Jaccard (Jaccard Index) để đánh giá độ ổn định của phương pháp phân cụm và chỉ số Rand (Rand Index) để đánh giá sự chính xác. Sau đó chúng tôi phân tích các kết quả thu được bởi kiểm định Friedman. Phân cụm phổ chuẩn hóa theo Ng et al. (2002) chứng tỏ là tốt nhất theo chỉ số hiệu lực Silhouette và Rand. Từ khóa: Hồ sơ biểu diễn gene, phân cụm phổ chuẩn hóa, phân cụm phổ không chuẩn hóa. Comparison of Spectral Clustering Algorithms for Gene Expression Data ABSTRACT Spectral clustering algorithms have been the most effective algorithms to divide genes into groups according to the degree of their expression similarity.
đang nạp các trang xem trước