tailieunhanh - Độ đo tương tự hỗn hợp cho dữ liệu với các thuộc tính số, ký hiệu và thứ tự

Trong báo cáo này, như bước phát triển mở rộng tự nhiên của MSM, các tác giả xem xét độ đo tương tự hỗn hợp cho dữ liệu với các thuộc tính số, thuộc tính ký hiệu và thuộc tính thứ tự, gọi tắt là MSM, với thuật toán tính nhanh. Phần thực nghiệm chi ra rằng MSM đã cho kết quả khả quan hơn MSM và đối với bài toán phân lớp. | ĐỌ ĐO TƯƠNG Tự HÔN HỢP CHO DỮ LIỆU VỚI CÁC THUỘC TÍNH SỐ KÝ HIỆU VÀ THỨ Tự Nguyễn Ngọc Bình Hồ Tú Bảo Thân Vãn Cường Khoa Công nghệ Thông tin Đạì học Bách Khoa Hà Nội HUTt Vietnam Viện Khoa học và Công nghệ Tiên tiến Nhật Bản JAfST Japan Nhiều phiỉơng pháp trong khai phả dữ liệu cần sừ dụng đến độ đo sự giong nhau tương tự ệìữa các đổi tượng. Trong thực tể chúng ta thường gặp những đoi tượng dữ liệu bao gồm nhiều thuộc tỉnh với cả thuộc tính ỉiên tục và rời rạc. Hầu hêt các độ đo tương tự khoáng cách chỉ áp dụng cho thuộc tỉnh rời rạc. David w. Goodall đã đề xuãt một độ đo tương tự hôn hợp MSM - Mixed Similarity Measure áp dụng được cho cà thuộc tỉnh liên tục và rời rạc. Chủng tôi đã để xuất thuật toán cho phép tinh độ đo MSM cho thuộc tinh so liên tục và ký hiệu rời rạc với độ phirc tạp tuyển tính. Trong bảo cáo này như bước phát triền mở rộng tự nhiên cùa MSM chủng tôi xem xét độ đo tương tự hon hợp cho dữ liệu với các thuộc tính sổ thuộc tính kỷ hiệu và thuộc tỉnh thứ tự gọi tắt là MSM với thuật toán tỉnh nhanh. Phần thực nghiệm chỉ ra rỗng MSM đà cho kêt quà khả quan hơn MSM và đôi với bài toán phân lớp. Từ khỏa data mining similarity measure classification clustering k-NNR. 1. KHÁI NIỆM Gọi o ỉà tập các đối tượng. Độ đo giống nhau giữa hai đối tượng X vầy trong o được định nghĩa s Oxỡ- í sro thỏa mãn - ỏ x x smax với mọi X - ỏ x y s y x với mọi cặp X y trong đó 5min chỉ mức độ giống nhau ít nhất và 5max chỉ mức độ giống nhau nhiều nhất. Cả hai giá trị này đều là các số thực và Smin Smax- Tương tự độ đo khoảng cách giữa hai đối tượng X vày trong o được định nghĩa d L min max J thỏa mãn - d x x dmia với mọi đối tượng X - d x y d y x vớimọicặpx y trong đó 7min chỉ khoảng cách bé nhất và íZmax chỉ khoảng cách lớn nhất và ymin dmax- Việc chuyển đổi từ độ đo giống nhau sang khoảng cách có thể được thực hiện bang nhiều cách. Cách đơn giàn nhất là đặt Jmi Jm và d x Smas - j x -5mill . Ngược lại 5 cũng có thề đặt là ỉ d nếu khoáng giá trị không chứa giá trị

TỪ KHÓA LIÊN QUAN