tailieunhanh - Khai phá dữ liệu trên hệ thông tin đa trị

Bài viết trình bày phương pháp khai phá luật xếp thứ tự bằng cách chuyển đổi hệ thông tin đơn trị xếp thứ tự thành hệ thông tin đơn trị nhị phân và áp dụng các kỹ thuật sinh luật trong lý thuyết tập thô trên hệ thông tin đơn trị nhị phân thu được. | Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CÔNG NGHỆ 185(09): 103 - 110 KHAI PHÁ DỮ LIỆU TRÊN HỆ THÔNG TIN ĐA TRỊ Phùng Thị Thu Hiền* Trường Đại học Kinh tế Kỹ thuật Công nghiệp TÓM TẮT Dựa trên ý tưởng thu nhỏ kích thước tập dữ liệu ban đầu, trong bài báo này tác giả đề xuất phương pháp lựa chọn tập đối tượng đại diện, gọi tắt là mẫu đại diện, từ tập đối tượng ban đầu cho bài toán tìm tập thuộc tính tối ưu của hệ thông tin đa trị. Tác giả chứng minh tập thuộc tính tối ưu trên tập đối tượng ban đầu và tập thuộc tính tối ưu trên mẫu đại diện là tương đương, từ đó khẳng định tính đúng đắn của phương pháp. Vì kích thước mẫu đại diện nhỏ hơn kích thước tập đối tượng ban đầu nên thời gian thực hiện các thuật toán tìm tập thuộc tính tối ưu trên mẫu đại diện giảm thiểu đáng kể. Kích thước mẫu đại diện được chọn lớn hay nhỏ phụ thuộc vào đặc thù mỗi hệ thông tin đa trị trong thực tế. Đồng thời bài báo trình bày phương pháp khai phá luật xếp thứ tự bằng cách chuyển đổi hệ thông tin đơn trị xếp thứ tự thành hệ thông tin đơn trị nhị phân và áp dụng các kỹ thuật sinh luật trong lý thuyết tập thô trên hệ thông tin đơn trị nhị phân thu được. Từ khóa: Hệ thông tin đa trị, tập thô, tập thuộc tính tối ưu, quan hệ dung sai MỞ ĐẦU* Lý thuyết tập thô truyền thống do Pawlak [1], [2] đề xuất được xây dựng dựa trên quan hệ tương đương nhằm giải quyết bài toán tìm tập thuộc tính tối ưu và sinh luật quyết định trên các hệ thông tin đơn trị. Trong các bài toán thực tế, giá trị một đối tượng tại một thuộc tính trên hệ thông tin có thể là một tập hợp nhiều giá trị. Trên cả hệ thông tin đơn trị và hệ thông tin đa trị, tìm tập thuộc tính tối ưu là bài toán quan trọng nhất, đã và đang thu hút sự quan tâm của cộng đồng nghiên cứu về tập thô. Với bài toán tìm tập thuộc tính tối ưu, vấn đề đang được các nhà nghiên cứu quan tâm hàng đầu là xây dựng các phương pháp pháp nhằm tối ưu thời gian thực hiện các thuật toán, nhờ đó có thể áp dụng trên các hệ thông tin kích thước lớn. Trên hệ thông tin đơn .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN