tailieunhanh - Đánh giá và thử nghiệm thuật toán lắp ráp dữ liệu hệ gen tin sinh học

Bài viết trình bày các kết quả thu được trong quá trình lắp ráp hệ gen từ thực nghiệm với dữ liệu giả lập và dữ liệu thực tế. Đồng thời tiến hành đánh giá, so sánh trên cơ sở các thông số được tạo bởi thuật toán DASR với phần mềm lắp ráp thông dụng hiện nay là Velvet và SPAdes. | TẠP CHÍ KHOA HỌC SỐ 18 2017 81 ĐÁNH GIÁ V- THỬ THỬ NGHIỆ NGHIỆM THUẬ THUẬT TOÁN LẮ LẮP RÁP DỮ LIỆ LIỆU HỆ HỆ GEN TRONG TIN SINH HỌ HỌC Nguyễn Văn Long Trường Đại học Tây Bắc Tóm tắ tắt Trong bài báo này tác giả trình bày các kết quả thu ñược trong quá trình lắp ráp hệ gen từ thực nghiệm với dữ liệu giả lập và dữ liệu thực tế. Đồng thời tiến hành ñánh giá so sánh trên cơ sở các thông số ñược tạo bởi thuật toán DASR với phần mềm lắp ráp thông dụng hiện nay là Velvet và SPAdes. Từ khóa khóa Bộ gen kết cấu DASR. Nhận bài ngày gửi phản biện chỉnh sửa và duyệt ñăng ngày Liên hệ tác giả Nguyễn Văn Long Email thanhlong868@ 1. MỞ ĐẦU Trong bài báo này với mục ñích ñánh kết quả lắp ráp của phần mềm DASR tác giả thực hiện lắp ráp hệ gen bằng dữ liệu giả lập và dữ liệu giải trình tự NGS Next Generation Sequencing 1 với nhiều k-mer khác nhau. Dữ liệu giải trình tự thực tế ñược cung cấp bởi phòng Tin Sinh học Viện Công nghệ Sinh học Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Ngoài ra ñể kiểm chứng rõ hơn hiệu quả lắp ráp của DASR tác giả tiến hành so sánh kết quả lắp ráp của DASR với hai phần mềm Velvet 2 và SPAdes 3 hai trong số những phần mềm ñược sử dụng phổ biến nhất trong các nghiên cứu về lắp ráp hệ gen. Quy trình so sánh ñược thực hiện như sau Từ kết quả lắp ráp dữ liệu thực tế với nhiều k-mer khác nhau tác giả lựa chọn thông số kmer tối ưu dựa trên các thông số kích thước hệ gen số lượng contig contig lớn nhất chỉ số N50 và số lượng trình tự sử dụng cũng như là chất lượng mapping. Sau khi có ñược k-mer tối ưu hai phần mềm Velvet và SPAdes ñược sử dụng ñể lắp ráp hệ gen với k-mer tối ưu ñã trọn. Cuối cùng là thống kê và so sánh kết quả lắp ráp của hai phần mềm với DASR 82 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI 2. NỘI DUNG NGHIÊN CỨU . Dữ liệu giả lập simulated . Thông tin dữ liệu Dữ liệu ñược giả lập dựa trên 1 hệ gen tham chiếu có kích thước hệ gen là MB và tỷ lệ GC là 38 94 ñược cung cấp bởi Tin sinh học bằng phần mềm wgsim với ñiểm .