Đang chuẩn bị liên kết để tải về tài liệu:
Sai số Bayes và khoảng cách giữa hai hàm mật độ xác suất trong phân loại hai tổng thể

Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ

Trong bài viết này chúng tôi quan tâm đến việc xác định sai số Bayes, tìm hàm mật độ xác suất cho tổng của hai loại sai lầm trên khoảng (0, ) 4 1 , từ đó xác định khoảng cách L1 của hai hàm mật độ theo Lissack và Fu (1976). Các vấn đề được xem xét chi tiết cho phân phối chuẫn, phân phối mũ và phân phối Beta. | TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 11, SOÁ 06 - 2008 SAI SỐ BAYES VÀ KHOẢNG CÁCH GIỮA HAI HÀM MẬT ĐỘ XÁC SUẤT TRONG PHÂN LOẠI HAI TỔNG THỂ Võ Văn Tài(1), Phạm Gia Thụ(2), Tô Anh Dũng(3) (1) Trường Đại học Cần Thơ (2)Trường Đại học Moncton, Canada (3)Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM 1. GIỚI THIỆU Trong thực tế có nhiều vấn đề đòi hỏi chúng ta phải giải quyết bài toán phân loại hai tổng thể H1 và H2. Có nhiều cách khác nhau để giải quyết bài toán phân loại này như kiểu phân loại dựa vào khoảng cách Metric đã được đề cập bởi Forgy (1965), Mac Queen (1967), E.Dilay (1972). Đó cũng là phân tích phân biệt của R.A. Fisher (1936), P.C. Mahalanobis (1936) (xem [5] ). Các phương pháp này có nhược điểm là không xác định được xác suất của sai lầm trong phân loại. Một phương pháp phân loại khác dựa trên hàm mật độ xác suất của hai tổng thể, đó là phương pháp Bayes. Phương pháp này có thể tính được xác suất sai lầm tối thiểu trong phân loại. Giả sử trên hai tổng thể ta quan sát biến ngẫu nhiên X, gọi f1(x), f2(x) là hàm mật độ xác suất của hai tổng thể. Nếu ta không quan tâm đến xác suất tiền nghiệm v của H1 thì sai số Bayes được xác định ∫ Pe = min{ f1 ( x ),( 1 − f 2 ( x )}dx , và nếu quan tâm đến v thì R ∫ Pe = min{ v. f1 ( x ),( 1 − v ) f 2 ( x )}dx . Pe đã được chứng minh là xác suất sai lầm nhỏ nhất trong R phân loại. Như vậy phương pháp Bayes đã giải quyết được vấn đề quan trọng trong lý thuyết phân loại, đó là việc tính sai số trong phân loại. Tuy nhiên, trong thực tế việc tính kết quả cụ thể gặp nhiều khó khăn, bởi việc xác định hàm mật độ xác suất, việc giải phương trình và việc tính các tích phân. Trong bài viết này chúng tôi quan tâm đến việc xác định sai số Bayes, tìm hàm mật độ xác suất cho tổng của hai loại sai lầm trên khoảng (0, 1 ) , từ đó xác định khoảng cách L1 của 4 hai hàm mật độ theo Lissack và Fu (1976). Các vấn đề được xem xét chi tiết cho phân phối chuẫn, phân phối mũ và phân phối Beta. 2. SAI SỐ BAYES TRONG PHÂN LOẠI HAI TỔNG .