tailieunhanh - Thuật toán khai thác tập phổ biến từ cơ sở dữ liệu số lượng có sự phân cấp các mục

Bài viết Thuật toán khai thác tập phổ biến từ cơ sở dữ liệu số lượng có sự phân cấp các mục đề xuất bài toán khai thác tập phổ biến trên CSDL số lượng có sự phân cấp item, đồng thời đề xuất thuật toán để giải quyết bài toán này và áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS trong lưu trữ tidset của các itemset. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Nguyễn Duy Hàm1, Võ Đình Bảy2, Nguyễn Thị Hồng Minh3 1 Bộ môn Toán Tin học, Trường Đại học An ninh Nhân dân 2 Khoa Công nghệ Thông tin, Trường Đai học Công nghệ 3 Khoa Sau đại học, Đại học Quốc gia Hà Nội duyham@, bayvodinh@, minhnth@ TÓM TẮT: Khai thác tập phổ biến để tìm mối quan hệ giữa các item (mục) trong cơ sở dữ liệu (CSDL) là bài toán quan trọng trong khai thác dữ liệu. Bên cạnh khai thác tập phổ biến từ các CSDL truyền thống, khai thác tập phổ biến trên CSDL trọng số và CSDL số lượng đã nhận được nhiều quan tâm từ các nhóm nghiên cứu. Tuy nhiên, các nghiên cứu này mới chỉ khai thác trên các CSDL mà các mục không có mối quan hệ nào với nhau. Trong bài báo này, chúng tôi đề xuất bài toán khai thác tập phổ biến trên CSDL số lượng có sự phân cấp item, đồng thời đề xuất thuật toán để giải quyết bài toán này và áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS trong lưu trữ tidset của các itemset. Kết quả thực nghiệm cho thấy thuật toán sử dụng cấu trúc MBiS hiệu quả nhất về mặt thời gian xử lý. Từ khóa: CSDL số lượng, CSDL có sự phân cấp mục, tập phổ biến, itemsets. I. GIỚI THIỆU Khai thác tập phổ biến là bài toán quan trọng trong khai thác dữ liệu nói chung. Từ tập phổ biến người ta có thể khai thác luật kết hợp, gom cụm hay phân lớp, .. Do đó, bài toán khai thác tập phổ biến được nhiều nhóm nghiên cứu trên thế giới quan tâm [1-11]. Khai thác tập phổ biến trọng số hữu ich FWUI (frequent weighted utility itemsets) được đề xuất lần đầu tiên năm 2008 [4]. Sau đó Vo và các đồng sự [12] đề xuất sử dụng hướng tiếp cận khai thác theo CSDL chiều dọc với chỉ một lần đọc dữ liệu. Hàm và các đồng sự [9, 10] đề xuất các cấu trúc mới trong khai thác tập phổ biến trên CSDL số lượng, các đề xuất này đã .

TÀI LIỆU LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.