Đang chuẩn bị liên kết để tải về tài liệu:
So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt

Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ

Bài viết trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc, Trung, Nam. Các bộ phân lớp SMO, lBK, Jrip, MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99,5% khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52,2%. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI 10.15625 vap.2016.00083 SO SÁNH MỘT SỐ BỘ PHÂN LỚP DÙNG CHO NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Nguyễn Hồng Quang2 Phạm Ngọc Hưng1 2 Trịnh Văn Loan1 2 Phạm Quốc Hùng1 1 Khoa Công nghệ Thông tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2 Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách khoa Hà Nội phamngochung@gmail.com loantv@soict.hust.edu.vn quangnh@soict.hust.edu.vn quochungvnu@gmail.com TÓM TẮT Tiếng Việt là ngôn ngữ có thanh điệu và có nhiều phương ngữ khác nhau. Ảnh hưởng của yếu tố phương ngữ tới các hệ thống nhận dạng tự động tiếng Việt nói là đáng kể. Có nhiều phương pháp khác nhau đã được nghiên cứu và áp dụng cho nhận dạng phương ngữ như GMM SVM. Bài báo trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội Huế Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc Trung Nam. Các bộ phân lớp SMO lBK Jrip MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99 5 khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52 2 . Từ khóa SVM nhận dạng phương ngữ tiếng Việt Weka SMO lBK Jrip multilayer perceptron PART tần số cơ bản. I. GIỚI THIỆU Tiếng Việt là ngôn ngữ có thanh điệu và đa dạng về phương ngữ 1 . Các phương ngữ khác nhau về từ địa phương và phương thức phát âm. Nghiên cứu nhận dạng tự động phương ngữ đóng vai trò quan trọng trong hệ thống nhận dạng tiếng nói cho các ngôn ngữ trong đó có tiếng Việt 2 3 . Bài báo này sẽ trình bày các thử nghiệm nhận dạng phương ngữ tiếng Việt theo phương .

TÀI LIỆU LIÊN QUAN