tailieunhanh - Thuật toán khai thác tập thường xuyên hiệu quả dựa trên kỹ thuật phân lớp dữ liệu

Trong bài báo này các tác giả đề xuất phương án giải quyết bài toán trên bằng cách phân hoạch dữ liệu thành N lớp, mỗi lớp được lưu trữ độc lập thành 1 file trên bộ nhớ ngoài và đề xuất thuật toán SPP-Mining để khai thác các tập thường xuyên với ngưỡng So tùy ý và được xử lý song song trên N máy. | Tạp chí Tin học và Điều khiển học 2007 260--271 THUẬT TOÁN KHAI THÁC TẬP THƯỜNG XUYÊN HIỆU QUA DỰA TRÊN KỸ THUẬT PHÂN LỚP DỮ LIỆU NGUYỄN HỮU TRỌNG Khoa Công nghệ Thông tin - Trường Đại học Nha Trang Email trongnh@ntu. Abstract. Find all association rules is a basic work in data mining. This problem is solved in two main steps First find all the frequent itemsets follow the given so threshold. Second based on frequent itemset find the association rules. All difficulties on the problem are focused on Step 1. Researches about association rules exploitation centralize processing speed improvement memory capacity and the number of time access the hard disk. In this article we propound the solution for the upper problem by divided data into n classes. Each of class is archived in one file on the external storage independently and offers the SPP_Mining algorithm to exploit the frequent itemset with so threshold and to parallel processing on n computers. Tóm tat. Tim các luật kết hạp là công việc co bản trong khai thác dữ liệu. Bài toán đuạc giải theo hai buớc chính Bước một tìm tất cả các tập thường xuyên theo ngưỡng So cho trước. Bước hai dựa vào các tập thường xuyên tìm các luật kết hợp. Tất cả khó khăn của bài toán tập trung ở bước một. Các nghiên cứu về khai thác luật kết họp dều tập trung cải tiến tốc độ xử lý dung lượng bộ nhớ và số lần truy cập đĩa. Trong bài báo này chúng tôi đề xuất phương án giải bài toán trên bằng cách phân hoạch dữ liệu thành n lớp mỗi lớp được lưu trữ độc lập thành một file trên bộ nhớ ngoài và đề xuất thuật toán SPP_Mining để khai thác các tập thường xuyên với ngưỡng Sq tùy ý và được xử lý song song n trên máy. 1. MỞ ĐẦU Quá trình nghiên cứu về khai thác dữ liệu được tông kết bởi Q. Zhao trong 1 Từ thuật toán AIS lần đầu tiên được Agrawal. R giới thiệu năm 1993 trong 2 thuật toán Apriori năm 1996 3 rồi từng bước được các tác giả chính và nhóm nghiên cứu công bố FP-Tree của J. Han năm 2000 4 DCI của c. Lucchese năm 2005 5 .

TỪ KHÓA LIÊN QUAN