tailieunhanh - Báo cáo " Thuật toán khai phá tập mục dữ liệu thường xuyên trong CSDL gia tăng dựa trên phân lớp dữ liệu"

Thuật toán khai phá tập mục dữ liệu thường xuyên trong CSDL gia tăng dựa trên phân lớp dữ liệu | TẠP CHÍ KHOA HỌC VẢ CÔNG NGHỆ Tập 45 số 3A 2007 Tr. 15-26 THUẬT TOÁN KHAI PHÁ TẬP MỤC DỮ LIỆU THƯỜNG XUYÊN TRONG cơ SỜ Dư LIỆU GlẨ TĂNG DỰA TRÊN PHÂN LỚP DỮ LIỆU NGUYỄN Hữu TRỌNG LMỞĐẰU Những vấn đề về khai phá luật kết hợp được tổng kết bởi Q. Zhao trong 1 và B. Goethals trong 2 Từ thuật toán AIS lần đầu tiên được Agrawal. R giới thiệu năm 1993 trong 3 thuật toán Apriori nâm 1996 4 rồi nhiều thuật toán cải tiến và mới được các nhà nghiên cứu công bố FP-Tree của J. Han năm 2000 5 DCI của c. Lucchese năm 2005 6 CHARM của M. J. Zaki năm 2005 7 LCM của T. Uno năm 2006 8 BFS của V. Choi năm 2006 9 Partition-P-tree PP-tree của s. Ahmed năm 2006 10 . Các thuật toán này chủ yếu xử lí trên tập dữ liệu xác định trước. Ta biết ràng các tập dữ liệu được bổ sung và gia tàng theo thời gian 12 13 do vậy các tập thường xuyên và các luật kết hợp đã được tính toán không còn giá trị trên tập dữ liệu mới. Ngoài ra với một kho dữ liệu ổn định khi cần tìm các tập thường xuyên với độ hỗ trợ khác công việc phải thực hiện lại từ đầu. Một thuật toán khai phá luật kết hợp trên cơ sở dữ liệu CSDL gia tăng đã được Nguyễn Xuân Huy Đoàn Văn Ban và Nguyễn Hữu Trọng đề xuất trong 14 Thuật toán này dựa vào kỹ thuật xây dựng giàn. Khi một giao tác xuất hiện thuật toán cập nhật thông tin tại các đỉnh của giàn. Với kỳ thuật duyệt giàn ta lưu trữ độ hỗ trự của mọi tập mục dữ liệu xuất hiện trong các giao tác và từ đó ta có thể lọc ra các tập thường xuyên theo yêu cầu. Kỹ thuật phân hoạch dữ liệu DL đã được Ashok Savasere công bố năm 1995 trong 10 và được Shakỉl Ahmed phát triển trong 11 . Với hướng tiếp cận này một CSDL kích thước lớn có nhiều dòng được chia ngang thành nhiều tập DL ít dòng để có thể đưa hết vào bộ nhớ trong để xử lí. Trong 15 tác giả đã đề xuất một thuật toán phân lớp DL theo chiều dọc một CSDL giao tác T trên tập mục dữ liệu I có n phần tử đưực chia thành n phần và được xử lí song song trên n máy. Tuy nhiên thuật toán này chỉ xử lí trên tập dữ liệu ởn định. Đe phát triển các kết quả

TỪ KHÓA LIÊN QUAN