tailieunhanh - Khai phá luật kết hợp trong cơ sở dữ liệu lớn

Bài viết này trình bày một số vấn đề khai phá luật kết hợp: bài toán xuất phát, mô hình hình thức, một số thuật toán điển hình giải quyết vấn đề, phân tích độ phức tạp của bài toán. | KHAI PHÁ LUẬT KÉT HỌP TRONG CSDL LỚN Nguyễn Huy Đức Trường Đào tạo giáo viên sơ cap Quá trình phát hiện tri thức gồm nhiều giai đoạn trong đó giai đoạn khai phá dữ liệu data mining hay viết tắt là DM ỉà giai đoạn chù yêu nhát cũa nó. Các kỹ thuật khai phả dữ liệu được chia thành ba màng cơ bân phân ỉớp phân cụm dữ liệu các luật két hợp và khai phả chuôi. Khai phá luật kêt hợp từ những CSDL lớn lân dâu xuât hiện vào năm ỉ993 và hiện tạỉ đà và đang được nghiên cứu phát triền rât mạnh trở thành một khuynh hướng quan trọng cùa khai phá dữ liệu. Bài viết này trình bày một sổ vấn đề khai phá luật kết hợp bài toán xuất phát mô hình hình thức một số thuật toán điển hình giải quyết vẩn để phân tỉch độ phức tạp cùa bài toán. 1. LUẬT KÉT HỌP Bài toán xuất phát 11 Phân tích việc bán hàn của siêu thị ta muốn biết được về sở thích mua hàng của khách hàng. Đặc biệt ta muốn biết những nhóm hoặc tập hợp những mặt hàng gì khách hàng thường cùng mua trong một Ịần đến cửa hiệu ví dụ như Bao nhiêu phần trăm khách đến của hàng mua bánh mỳ thi cũng mua sữa Kết quả phân tích có thể sử dụng cho kế hoạch tiếp thị hoặc chiến lược quảng cáo cũng như sắp xếp các mặt hàng. Ta có thể sừ dụng các biến giá trị Boolean để miêu tả sự có mặt hoặc không của mặt hàng trong mỗi tác vụ mua bán. Mỗi rổ mua hàng của khách hàng có thể miêu tả bởi một vector boolean của các biến này. Các vector boolean đó có thể phân tích cho các vụ mua bán để tim ra sự kết hợp các tập phổ biến và các mặt hàng thường được mua cùng nhau. Đe đánh giá chất lượng của luật kết hợp người ta thường sừ dụng 2 độ đo độ hỗ trợ support và độ tin cậy Confidence . Mô hình hình thức Kí hiệu I iị 12 . im là tập các thuộc tính nhị phân gọi là các mục item . D là cơ sở dữ liệu của các tác vụ mỗi vụ mua hàng của một khách hàng nào đó được xem là một tác vụ - transaction ở đỏ mỗi tác vụ T là tập của các mục Tcĩ. Mỗi tác vụ có một định danh gọi là TID. X là tập của các mục Xel. Tác vụ T được gọi là chứa X nếu và chỉ nếu XeT. Tác vụ T .

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.