Đang chuẩn bị liên kết để tải về tài liệu:
Lập chỉ mục theo nhóm để nâng cao hiệu quả khai thác cơ sở dữ liệu virus cúm

Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ

Bài viết này trình bày giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành; đồng thời đưa ra thuật toán lập chỉ mục theo nhóm qua đó có thể giúp cho việc khai thác thông tin theo tiêu chí người dùng về virus cúm nhanh chóng và hiệu quả. Thuật toán cho phép chọn lựa những trình tự sinh học với mức độ tương đồng khác nhau để truy vấn; sau đó nhóm những kết quả dựa trên quan hệ họ hàng của chúng với nhau. Bên cạnh đó, bài viết cũng trình bày giải pháp cho phép cập nhật dữ liệu một cách tự động từ các ngân hàng dữ liệu về virus cúm trên thế giới, đặc biệt là ngân hàng dữ liệu của NCBI (National Center for Biotechnology Information). | LẬP CHỈ MỤC THEO NHÓM ĐỂ NÂNG CAO HIỆU QUẢ KHAI THÁC CƠ SỞ DỮ LIỆU VIRUS CÚM Trương Thị Đức, Trương Thị Quỳnh Hương, Nguyễn Thụy Mai Trâm Võ Hồng Bảo Châu, Tạ Thúc Nhu Khoa Công nghệ thông tin, Trường Đại học Lạc Hồng 10 Huỳnh Văn Nghệ, Biên Hòa, Đồng Nai {duc,huong,maitram,chau,nhu}@lhu.edu.vn TÓM TẮT Virus cúm (influenza) là một loại RNA virus, chính là nguyên nhân gây ra bệnh cúm ở người và động vật. Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người; virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Chính vì vậy, sự hiểu biết về cấu trúc phân tử của nó là một nhu cầu lớn trong các nghiên cứu về dịch bệnh. Hiện nay, các tổ chức y tế, cũng như các ngân hàng dữ liệu trên thế giới đã lưu trữ nhiều trình tự sinh học liên quan đến virus cúm. Tuy nhiên, các ngân hàng dữ liệu sinh học này không chứa thông tin chi tiết đến các tỉnh thành của một quốc gia. Vì vậy, chúng ta không có đầy đủ thông tin để biểu diễn quá trình lây nhiễm, cũng như phân tích virus cúm ở Việt Nam một cách đầy đủ, đặc biệt có đủ thông tin để phục vụ cộng đồng. Bài viết này trình bày giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành; đồng thời đưa ra thuật toán lập chỉ mục theo nhóm qua đó có thể giúp cho việc khai thác thông tin theo tiêu chí người dùng về virus cúm nhanh chóng và hiệu quả. Thuật toán cho phép chọn lựa những trình tự sinh học với mức độ tương đồng khác nhau để truy vấn; sau đó nhóm những kết quả dựa trên quan hệ họ hàng của chúng với nhau. Bên cạnh đó, bài viết cũng trình bày giải pháp cho phép cập nhật dữ liệu một cách tự động từ các ngân hàng dữ liệu về virus cúm trên thế giới, đặc biệt là ngân hàng dữ liệu của NCBI (National Center for Biotechnology Information) 1. Đặt vấn đề Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen của virus