tailieunhanh - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 2
Các bài giảng, giáo trình được soạn trên công cụ này sẽ có cấu trúc tương tự như cấu trúc của giáo trình trực tuyến đã trình bày ở phần trên. Công cụ này cũng tương tự như các chương trình soạn thảo khác như WindWords, PowerPoint, Tuy nhiên, do đã chọn cách tổ chức lưu trữ dữ liệu các giáo trình trực tuyến bằng các tài liệu XML, nếu ta soạn thảo các giáo trình trực tuyến trên WindWords thì các tập tin tài liệu XML chứa các giáo trình trực tuyến này chỉ có thể xem, | Bằng cách đệ qui viết thừa số thứ hai trong tích trên như sau P X2 x2 Ù. Ù Xn xn C c P X2 x21X3 x3 Ù. Ù Xn xn C c P X3 x3 Ù. Ù Xn xn C c và cứ tiếp tục như vậy. Phương pháp phân loại Naive Bayesian giả thiết rằng với mỗi Xt kết quả tác động của nó là độc lập với các Xj khác như vậy chúng ta thừa nhận rằng P X1 xj X2 x2 Ù. Ù Xn xn C c P X1 xj C c và tương tự như vậy đối với X2 . Xn. Như vậy xác suất P X1 xj Ù X2 x2 Ù. Ù Xn xn C c n P Xj x1 C c P X 2 x C c .P Xn xn C c Õ P Xị x C c ị Mỗi một thừa số trong tích trên có thể được tính dễ dàng từ tập huấn luyện ban đầu như vậy phương pháp Naive Bayesian giảm sự phức tạp của việc tính toán giá trị xác suất P X1 x Ù X2 x2 Ù. Ù Xn xn C c Phân loại email bằng phương pháp Naive Bayesian Ở đây mỗi mẫu mà ta xét chính là mỗi một email tập các lớp mà mỗi email có thể thuộc về là C spam non-spam Khi ta nh ân được mộ t email nếu ta không biết một thông tin gì ve nó do đó khó có thể quyết định chính xác email này là spam hay không . Nếu như ta có thêm đặc điểm hay thuộc tính nào đó của email thì ta có thể nâng cao hiệu qu ả nhận được email là spam Một email có nhiều đặc điểm như tiêu đề nội dung có đính kèm tập tin hay không .Ta có thể dựa vào các thông tin này để nâng cao hiệu quả phân lọ ai email spam. Một ví dụ đơn giản nếu ta biết được rằng 95 email html là email spam và ta lại nhận được một email html như v ây có thể dựa vào xác su ất biết trước 95 email html là email spam để tính được xác suất email mà ta nhận được là spam nếu xác su ất này lớn hơn xác suất email đó là non-spam có thể kết 37 luận rằng email đó là spam tuy nhiên kết luận này không chính xác lắm Nhung nếu ta có đuợc nhiều xác suất biết trước như vậy thì kết luận sẽ trở nên đáng tin cậy hơn. Để có được các xác suất biết trước này sử dụng phương pháp Naive Bayesian hu ấn luyện tập m ẫu email ban đầu sau đó sẽ sử dụng các xác suất này ứng dụng vào phân lọai một mẫu email mới. Phân loại email dựa trên thuật toán Naive Bayesian Giả thiết mỗi một email được
đang nạp các trang xem trước