tailieunhanh - Báo cáo nghiên cứu khoa học: "DỰ ĐOÁN PHÂN LOẠI CỦA ENZYME BẰNG CÁCH ÁP DỤNG KỸ THUẬT KHAI THÁC DỮ LIỆU ĐỒ THỊ"

Trong bài báo này, chúng tôi trình bày cách thức ứng dụng kỹ thuật khai thác dữ liệu để phân rã chuỗi amino acid cấu tạo nên enzyme - thuộc cùng một phân lớp enzyme đã được định danh - thành tập các đồ thị con phổ biến tối đại tương ứng. Các đồ thị con có thể có một đỉnh và cũng có thể có nhiều đỉnh. | Science Technology Development Vol 11 2008 DỰ ĐOÁN PHÂN LOẠI CỦA ENZYME BẰNG CÁCH ÁP DỤNG KỸ THUẬT KHAI THÁC DỮ LIỆU ĐỒ THỊ Phạm Quốc Đàm 1 Đỗ Phúc 2 Lê Thị Thanh Mai 3 1 Trường Đại học Tôn Đức Thắng 2 Trường Đại học Công nghệ thông tin ĐHQG-HCM 3 ĐHQG-HCM Bài nhận ngày 25 tháng 06 năm 2007 hoàn chỉnh sửa chữa ngày 29 tháng 12 năm 2007 TÓM TẢT Trong bài báo này chúng tôi trình bày cách thức ứng dụng kỹ thuật khai thác dữ liệu để phân rã chuỗi amino acid cấu tạo nên enzyme - thuộc cùng một phân lớp enzyme đã được định danh - thành tập các đồ thị con phổ biến tối đại tương ứng. Các đồ thị con có thể có một đỉnh và cũng có thể có nhiều đỉnh. Khi cần dự đoán có một enzyme mới thuộc phân lớp enzyme nào ta chỉ cần phân rã chuỗi amino acid của enzyme đó rồi so khớp với từng tập đồ thị con phổ biến tối đại có trong cơ sở dữ liệu. Phân loại enzyme được dự đoán dựa trên phân loại có điểm số cao nhất sau khi so khớp. Việc thử nghiệm được triển khai dựa trên các phân lớp Oxidoreductase EC và Hydrolase EC đã cho kết quả tốt. Qua quá trình thử nghiệm chúng tôi nhận thấy khi mở rộng quy mô của tập học nên chọn tất cả các enzyme đã được định danh. Mục đích của việc chọn lựa này là để tạo nên tập đồ thị con phổ biến tối đại có độ tin cậy cao. 1. GIỚI THIỆU Sự phát triển mạnh mẽ của công nghệ sinh học trong những năm gần đây đã tạo nên lượng dữ liệu rất lớn về enzyme hơn 19000 enzymes . Trong khi đó số lượng enzyme đã được định danh chính xác mới được khoảng 4006 enzymes. Vì vậy cần tìm kiếm phương pháp mới giúp dự đoán phân loại enzyme thoả các yêu cầu - Nhanh - Dễ sử dụng và - Ít cần sự can thiệp của chuyên gia sinh học. Khai thác dữ liệu đồ thị Graph Mining đang là một kỹ thuật mới được dùng để phát hiện tri thức và đặc biệt thích hợp với dữ liệu có cấu trúc vì có thể sử dụng đồ thị để mô tả. Với enzyme bộ 3 thành phần hoá học - cấu trúc - chức năng có quan hệ mật thiết với nhau. Vậy nếu có thể ứng dụng được Graph Mining để tìm được tập các đồ thị .

TỪ KHÓA LIÊN QUAN