tailieunhanh - Thuật toán khai phá nhanh tập lợi ích cao với số lượng phần tử tối thiểu

Bài viết trình bày đề xuất một chiến lược mới để tỉa tập ứng viên nhằm giảm không gian tìm kiếm và đề xuất thuật toán ImprovedMinFHM khai phá hiệu quả tập lợi ích cao với số lượng phần tử tối thiểu | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Hà Nội ngày 09-10 8 2018 DOI THUẬT TOÁN KHAI PHÁ NHANH TẬP LỢI ÍCH CAO VỚI SỐ LƯỢNG PHẦN TỬ TỐI THIỂU Nguyễn Mạnh Hùng 1 Đậu Hải Phong2 1 Phòng Sau đại học - Học viện Kỹ thuật Quân sự 2 Khoa Toán và Tin học Trường Đại học Thăng Long manhhungk12@ phong4u@ TÓM TẮT Khai phá tập lợi ích cao trong cơ sở dữ liệu giao dịch là một trong nhiệm vụ phổ biến trong khai phá dữ liệu và có ứng dụng rộng rãi trong nhiều lĩnh vực thực tế. Các thuật toán truyền thống thường đưa ra một số lượng lớn tập các phần tử có lợi ích cao gây khó khăn cho phân tích của người dùng. Một khái niệm tập lợi ích cao với số lượng phần tử tối thiểu được đề xuất năm 2016 của tác giả Philippe Fournier-Viger và các đồng sự. Thuật toán MinFHM khai phá tập lợi ích cao với số lượng phần tử tối thiểu dựa trên cấu trúc EUCS Estimated Utility Co-Occurrence Structure để loại bớt tập ứng viên nhằm giảm không gian tìm kiếm. Tuy nhiên cấu trúc EUCS sử dụng ngưỡng TWU Transaction Weighted Utility đây là một ngưỡng cao hơn mức cần thiết. Do đó số lượng tập ứng viên được sinh ra lớn hơn rất nhiều so với thực tế tập lợi ích cao với số lượng phần tử tối thiểu được sinh ra. Trong bài báo này chúng tôi đề xuất một chiến lược mới để tỉa tập ứng viên nhằm giảm không gian tìm kiếm và đề xuất thuật toán ImprovedMinFHM khai phá hiệu quả tập lợi ích cao với số lượng phần tử tối thiểu. Kết quả thử nghiệm trên các bộ dữ liệu cho thấy rằng thuật toán ImprovedMinFHM có tốc độ thực hiện nhanh hơn và sinh ra số lượng ứng viên ít hơn so với thuật toán MinFHM. Từ khóa High Utility Mining TWU EUCS ImprovedMinFHM. I. GIỚI THIỆU Ngày nay việc tìm kiếm các tri thức tiềm ẩn trong khối lượng dữ liệu khổng lồ đang gia tăng nhanh chóng là bài toán rất được quan tâm. Khai phá tập lợi ích cao HUIs là một dạng bài toán khó để tìm kiếm các tập có giá trị lợi ích lớn hơn một ngưỡng cho trước. Không giống .

TỪ KHÓA LIÊN QUAN