tailieunhanh - Khai thác luật thiết yếu nhất từ tập phổ biến đóng

Trong hầu hết các thuật toán khai thác luật, các tác giả đặc biệt chú ý đến vấn đề làm thế nào để tìm tập phổ biến nhanh nhất có thể. Chính vì vậy, có khá nhiều tác giả chỉ tập trung vào việc nghiên cứu nhằm tìm ra thuật toán hiệu quả nhất cho bài toán tìm tập phổ biến. | TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 11, SOÁ 01 - 2008 KHAI THÁC LUẬT THIẾT YẾU NHẤT TỪ TẬP PHỔ BIẾN ĐÓNG Lê Hoài Bắc, Võ Đình Bảy Trường Đại học Khoa học Tự nhiên, ĐHQG – HCM 1. GIỚI THIỆU Trong hầu hết các thuật toán khai thác luật, các tác giả đặc biệt chú ý đến vấn đề làm thế nào để tìm tập phổ biến nhanh nhất có thể. Chính vì vậy, có khá nhiều tác giả chỉ tập trung vào việc nghiên cứu nhằm tìm ra thuật toán hiệu quả nhất cho bài toán tìm tập phổ biến. Tuy nhiên, với các CSDL đặc (mật độ trùng lặp các item giữa các dòng dữ liệu cao) hoặc khi minSup nhỏ dẫn đến số lượng tập phổ biến khá lớn thì thời gian khai thác và khối lượng bộ nhớ yêu cầu để lưu trữ tập phổ biến và luật kết hợp khá lớn – Vì vậy, các tác giả M. Zaki [7] và Y. Bastide [4] đã đưa ra một cách tiếp cận mới nhằm làm giảm khối lượng lưu trữ và thời gian khai thác: đó chính là khai thác luật kết hợp dựa vào tập đóng. Cách tiếp cận này có ưu điểm là số luật kết hợp giảm đáng kể so với phương pháp truyền thống nhưng vẫn bảo đảm tích hợp đầy đủ các luật còn lại. Do muốn bảo toàn thông tin về độ phổ biến(support) và độ tin cậy(confidence) của luật nên cả hai đều chỉ rút gọn trên các tập luật có cùng độ phổ biến và độ tin cậy. Tuy nhiên, khi người dùng muốn khai thác tập các luật thỏa minSup và minConf (nhưng không cần biết thông tin về độ phổ biến và độ tin cậy của từng luật), làm thế nào để khai thác tập luật nhỏ nhất thỏa mãn yêu cầu người dùng?. Gần đây, các tác giả T. Xia, Y. Du, J. Shan, D. Zhang trong [5] đề xuất phương pháp khai thác luật thiết yếu nhất dựa vào tập phổ biến tối đại nhằm giới hạn không gian lưu trữ và thời gian khai thác so với phương pháp của Aggarwal và Yu [3]. Nhưng do khai thác trực tiếp trên tập phổ biến tối đại nên việc tính độ phổ biến của các tập con mất nhiều thời gian do phải đọc nhiều lần CSDL. 2. KHAI THÁC TẬP PHỔ BIẾN ĐÓNG Để khai thác tập phổ biến đóng, chúng tôi sử dụng thuật toán CHARM được trình bày trong [6]. CHARM có ưu điểm là không sinh ứng viên và dựa vào .

TÀI LIỆU LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
24    115    0    19-05-2024
8    94    0    19-05-2024
6    106    0    19-05-2024
3    130    0    19-05-2024
380    100    0    19-05-2024
337    91    0    19-05-2024
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.