tailieunhanh - Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp nén dữ liệu để tăng hiệu quả lưu trữ chuỗi DNA

Nội dung đề tài "Nghiên cứu phương pháp nén dữ liệu để tăng hiệu quả lưu trữ chuỗi DNA" gồm 3 chương trình bày về: Tổng quan các phương thức nén dữ liệu; thuật toán nén tham chiếu JDNA, thực nghiệm so sánh thuật toán JDNA với thuật toán mã hóa huffman và lempel - ZIV và luận án đưa ra kết luận về hiệu quả cũng như hạn chế còn tồn tại và hướng phát triển trong tương lai. | ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CAO THỤC TUYẾT TRINH NGHIÊN CỨU PHƯƠNG PHÁP NÉN DỮ LIỆU ĐỂ TĂNG HIỆU QUẢ LƯU TRỮ CHUỖI DNA Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2016 1 GIỚI THIỆU Những tiến bộ kỹ thuật trong việc sắp xếp các chuỗi đa lượng đã và đang tạo ra một khối lượng khổng lồ dữ liệu các chuỗi gen phục vụ cho y sinh học hiện đại. Kích thước dữ liệu ngày càng tăng đặt ra vấn đề về chi phí cho không gian lưu trữ và tốc độ truy cập, truyền tải. Bộ gen của con người gồm khoảng 3 tỉ đặc trưng trên 23 cặp nhiễm sắc thể. Cơ sở dữ liệu hệ gen là vô cùng lớn và phức tạp. Để lưu trữ, truy cập và xử lý dữ liệu này một cách hiệu quả là một nhiệm vụ rất khó khăn. Do vậy cần một thuật toán nén hiệu quả để lưu trữ khối lượng dữ liệu khổng lồ này. DNA là tên hóa học chỉ các phân tử mang cấu trúc gen trong tất cả các thực thể sống. DNA gồm một chuỗi được tạo nên từ 4 loại đơn vị nucleotide, mỗi loại gồm: 1 đơn vị đường carbon 5, 1 nhóm phốt phát và 1 trong 4 thành phần cơ bản adenine, cystosine, guanine và thymine gọi là các bazơ. Mỗi phân tử đường được gắn với ¼ thành phần cơ bản. Dạng đơn giản nhất của DNA trong 1 tế bào là 1 cấu trúc dây xoắn đôi, trong đó 2 sợi DNA đơn xoắn quanh nhau theo hình xoắn ốc thuận tay phải. Do chuỗi DNA gồm 4 thành phần A, T, G, C nên cách hiệu quả nhất để biểu diễn chúng là sử dụng 2 bits cho mỗi kí hiệu. Tuy nhiên, nếu ứng dụng phần mềm nén tiêu chuẩn như “Unix\compress and \compact” thì các tệp sẽ bị mở rộng ra hơn 2 bit trên mỗi thành phần. Những phần mềm này được thiết kế để nén văn bản, trong khi đó những quy tắc trong chuỗi DNA thì lại phức tạp hơn. Mã hóa 2 bit là cách hiệu quả nếu các bazơ xuất hiện ngẫu nhiên trong chuỗi. Nhưng cuộc sống của một sinh vật là không ngẫu nhiên, do đó chuỗi DNA xuất hiện trong 1 sinh vật là không ngẫu nhiên và có một số ràng buộc. Nén chuỗi DNA là một nhiệm vụ rất thách thức. Đặc trưng phức

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN