tailieunhanh - Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện

Bài viết "Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện" đề xuất thuật toán RSFPGrowth khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện. Thuật toán RSFPGrowth cho phép thay vì tìm tập tất cả các tập mục thường xuyên trong cơ sở dữ liệu lớn bằng cách tìm tập chứa hầu hết các tập tập mục thường xuyên từ tập mẫu đại diện các giao tác. Mời các bạn cùng tham khảo! | THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế và Thương mại điện tử Đại học Thương mại Nguyễn Minh Hoàng Khoa Toán - Cơ - Tin học Đại học Khoa học Tự nhiên Đại học Quốc gia Hà Nội Tóm tắt Bài viết đề xuất thuật toán RSFPGrowth khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện. Thuật toán RSFPGrowth cho phép thay vì tìm tập tất cả các tập mục thường xuyên trong cơ sở dữ liệu lớn bằng cách tìm tập chứa hầu hết các tập tập mục thường xuyên từ tập mẫu đại diện các giao tác. Bởi vì khi cỡ mẫu n cần lấy cho tập mẫu sẽ tăng chậm so với cỡ tổng thể nên độ hiệu quả của việc khai phá tập tập mục thường xuyên thông qua lấy mẫu đại diện các giao tác sẽ càng cao khi kích thước của cơ sở dữ liệu ban đầu càng lớn. Từ khóa Khai phá dữ liệu tập mục thường xuyên cơ sở dữ liệu mẫu đại diện FP- Growth 1. Mở đầu Trong những năm gần đây khai phá dữ liệu KPDL đã trở thành đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu và đã được ứng dụng thành công trong mọi mặt của đời sống - xã hội. Khai phá dữ liệu được định nghĩa là quá trình trích lọc không tầm thường những thông tin hữu ích chưa biết từ các cơ sở dữ liệu CSDL lớn có chứa đến hàng vạn triệu các giao tác . Khai phá tập mục thường xuyên TMTX được biết đến như là bài toán con của bài toán khai phá dữ liệu và đã được giới thiệu lần đầu tiên vào năm 1993 bởi Agrawal R. và Srikant R. 5 6 thuộc Trung tâm nghiên cứu Almaden của IBM Mỹ nhằm phân tích CSDL bán hàng tại siêu thị. Qua quá trình phân tích sẽ giúp cho nhà phân tích lựa chọn các phương án tốt nhất trong hoạt động kinh doanh của siêu thị. Để giải quyết bài toán này các tác giả đề xuất thuật toán Apriori. Tại hội nghị quốc tế về khai phá dữ liệu vào tháng 12 năm 2006 đã đánh giá thuật toán Apriori đứng trong top 10 thuật toán khai phá dữ liệu 9 . Hiện đã có nhiều nghiên cứu xây dựng các thuật toán khai phá TMTX được dựa trên thuật toán Apriori gọi là các thuật

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.