tailieunhanh - Thuật toán hiệu quả khai thác tập tương quan hiếm có trọng số kết hợp độ đo ALL-CONFIDENCE
Bài viết đề xuất một cách tiếp cận khai thác tập tương quan hiếm có trọng số theo hướng tiếp cận không thỏa tính chất bao đóng giảm và đồng thời thỏa ràng buộc phản đơn điệu của độ đo tương quan all-confidence. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP TƯƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE Phan Thành Huấn1 2 Lê Hoài Bắc3 1 Khoa Toán - Tin học Trƣờng Đại học Khoa học Tự nhiên Đại học Quốc gia Tp. Hồ Chí Minh 2 Bộ môn Tin học Trƣờng Đại học Khoa học Xã hội và Nhân văn Đại học Quốc gia Tp. Hồ Chí Minh 3 Khoa Công nghệ thông tin Trƣờng Đại học Khoa học Tự nhiên Đại học Quốc gia Tp. Hồ Chí Minh huanphan@ lhbac@ TÓM TẮT Khai thác tập hiếm là một kỹ thuật khai thác rất quan trọng cùng với các ứng dụng tiềm năng như phát hiện các cuộc tấn công máy tính giao dịch gian lận trong các tổ chức tài chính tin sinh học y tế. Trong khai thác dữ liệu truyền thống trên dữ liệu giao dịch thì các item không có trọng số như nhau . Tuy nhiên trong một số ứng dụng thực tế thì mỗi item có trọng số khác nhau thể hiện mức độ quan trọng hay ý nghĩa của từng item - cần khai thác các tập phổ biến hiếm có trọng số của item. Trong bài viết này chúng tôi đề xuất một cách tiếp cận khai thác tập tương quan hiếm có trọng số theo hướng tiếp cận không thỏa tính chất bao đóng giảm và đồng thời thỏa ràng buộc phản đơn điệu của độ đo tương quan all-confidence. Thuật toán chúng tôi đề xuất được gọi là ALLCONF-CORSI. Chúng tôi tiến hành thực nghiệm thuật toán trên bộ dữ liệu thực của UCI và bộ dữ liệu giả lập của trung tâm nghiên cứu IBM Almaden cho thấy thuật toán đề xuất hiệu quả. Từ khóa độ đo all-confidence tập tương quan hiếm có trọng số thuật toán ALLCONF-CORSI. I. GIỚI THIỆU Thuật toán khai thác luật kết hợp truyền thống 1-3 chỉ dùng một giá trị ngƣỡng phổ biến tối thiểu minsup với ngầm định là các mặt hàng có cùng tính chất và tần số trong dữ liệu điều này không thực tế. Trong kinh doanh bán lẻ thƣờng các mặt hàng thiết yếu hàng tiêu dùng và các sản phẩm giá rẻ đƣợc mua nhiều hơn trong khi các mặt hàng xa xỉ và các sản
đang nạp các trang xem trước