tailieunhanh - Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3

Hình 5-32 : Màn hình hiệu suất thực hiện công việc Quản lý dự án phần mềm trên Web Màn hình báo cáo tiến độ công việc: Stt Biến cố 0 Khởi động xử lý Lấy thông tin của công việc : thông tin theo kế hoạchh, thông tin dự đoán, thông tin thực tế ở thời điểm hiện tại, sau đó hiển thị lên màn hình Kiểm tra phần trăm hoàn Ghichú Quản lý dự án phần mềm trên Web thành trong khoảng 0100 2 3 4 5 6 . | Chương 7 THỰC HIỆN VÀ KIÉM THỬ PHÂN LOẠI EMAIL DỰA TRÊN PHƯƠNG PHÁP ADABOOST 73 Cài đặt bộ phân loại email dựa trên phương pháp AdaBoost Chúng tôi tiến hành cài đặt bộ phân loại email dựa trên thuật toán AdaBoost với ba cách Struct rule Token chuỗi 0 Cách 1 cài đặt theo thuật toán AdaBoost MH With Discrete Value Prediction 0 Cách 2 cài đặt theo thuật toán AdaBoost MH With Real Value Prediction Sau khi thực hiện chúng tôi lưu lại T luật đã được chọn để phân loại cho các mẫu mới Chúng tôi xây dựng một cấu trúc dữ liệu luật như sau lưu token giá trị của luật khi token không có trong email đưọc xét giá trị của luật khi token có trong email đưọc xét LX Tập huấn luyện mẫu và tập nhãn Tập huấn luyện mẫu chính là các email spam và email non-spam được dung để huấn luyện tập nhãn là Y -1 1 ở đây chúng tôi qui định -1 là spam và 1 là non-spam c0 số thực c1 sồ thự 74 Xây dựng tập luật yếu ban đầu Với mỗi token8 w định nghĩa w e x tương đương với w có trong email nghĩa luật yếu h như sau h x c0 nếu w Ể xvà h x c 1 nếu w e x Chúng tôi tiến hành cài đặt thử nghiệm thuật toán AdaBoost với hai cách khác nhau do đó tương ứng với mỗi cách cách lấy giá trị c0 và C1 khác nhau các giá trị c0 C1 mà h x có thể nhận được tính như đã nói ở các mục và mục . Số lượng của tập luật yếu được dùng để huấn luyện theo nguyên tắc là không hạn chế như vậy chúng ta có thể lấy tất cả các token trong tập học. Tuy nhiên chúng tôi nhận thấy để lấy hết tất cả các token thì rất mất thời gian và tốc độ huấn luyện cũng chậm đi vì thế chúng tôi chỉ chọn ra một số các token thoả mãn một tiêu chí nào đó để xây dựng luật yếu. Mỗi luật yếu được chọn như sau chúng tôi duyệt qua tất cả các mẫu học tính số lần xuất hiện của mỗi token những token có số lần xuất hiện lớn hơn một giá trị ngưỡng nào đó được qui định sẽ được lựa chọn việc lựa chọn ngưỡng để quyết định luật có được chọn hay không tuỳ thuộc vào kho ngữ liệu học. Chúng tôi chia thành hai tập riêng một tập gồm các token .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN