tailieunhanh - Khai thác tập phổ biến có trọng số dựa trên cấu trúc N-LIST

Bài viết đề xuất một cấu trúc mở rộng của N-list là WN-list (Weighted N-list) để giải quyết bài toán khai thác tập phổ biến có trọng số trên CSDL trọng số. Đầu tiên, một số định lý được phát triển để tính toán độ phổ biến trọng số của itemset, sau đó thuật toán NFWI được đề xuất trên cơ sở các định lý đó để khai thác nhanh tập phổ biến có trọng số. Các thử nghiệm trên nhiều loại cơ sở dữ liệu (thưa và dày) cho thấy phương pháp đề xuất hiệu quả hơn so với các phương pháp khai thác tập phổ biến có trọng số hiện có, đặc biệt là khi ngưỡng phổ biến nhỏ. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST Bùi Danh Hường 1 Võ Đình Bảy2 Nguyễn Duy Hàm3 1 Trung tâm Ngoại ngữ - Tin học Đại học An ninh Nhân dân 2 Khoa công nghệ thông tin Đại học Công nghệ TP. Hồ Chí Minh 3 Bộ môn Toán Tin học Đại học An ninh Nhân dân buidanhhuong@ duyham@ TÓM TẮT Khai thác tập phổ biến là bài toán quan trọng trong khai thác dữ liệu. Đã có nhiều phương pháp khác nhau được đề xuất để giải quyết bài toán này. Trong đó cấu trúc N-list được đề xuất bởi Deng với việc sử dụng hướng tiếp cận lai giữa cây FP và cây liệt kê đã đạt được hiệu quả đáng khích lệ. Tuy nhiên phương pháp này mới chỉ khai thác trên cơ sở dữ liệu CSDL nhị phân truyền thống. Trong bài báo này chúng tôi đề xuất một cấu trúc mở rộng của N-list là WN-list Weighted N-list để giải quyết bài toán khai thác tập phổ biến có trọng số trên CSDL trọng số. Đầu tiên một số định lý được phát triển để tính toán độ phổ biến trọng số của itemset sau đó thuật toán NFWI được đề xuất trên cơ sở các định lý đó để khai thác nhanh tập phổ biến có trọng số. Các thử nghiệm trên nhiều loại cơ sở dữ liệu thưa và dày cho thấy phương pháp đề xuất hiệu quả hơn so với các phương pháp khai thác tập phổ biến có trọng số hiện có đặc biệt là khi ngưỡng phổ biến nhỏ. Từ khóa Khai thác dữ liệu khai thác tập phổ biến tập phổ biến có trọng số WN-list. I. GIỚI THIỆU Từ khi được đề xuất bởi Agrawal và các đồng sự 1 khai thác tập phổ biến FI đã trở thành một chủ đề nghiên cứu quan trọng trong lĩnh vực khai thác dữ liệu. Nhiều phương pháp khác nhau đã được đề xuất để giải quyết bài toán này góp phần nâng cao hiệu quả khai thác FI. Các phương pháp hiện có có thể được chia làm 4 nhóm chính như sau Các phương pháp theo hướng tiếp cận Apriori Hướng tiếp cận Apriori 2 đặc trưng bởi việc sinh và kiểm tra các ứng viên cấp k