tailieunhanh - Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL

Bài viết Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL đánh giá hiệu quả của Transformer-XL với tiếng Việt cũng như việc áp dụng chúng vào một hệ thống nhận dạng tiếng nói. | Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN 978-604-82-2981-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH NGÔN NGỮ TRANSFORMER-XL Nguyễn Quang Trung1 Đỗ Văn Hải2 1 Trung tâm Không gian Mạng Viettel 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU Mô hình ngôn ngữ là một thành phần không thể thiếu trong một hệ thống nhận . Hệ thống nhận dạng tiếng nói. dạng tiếng nói hiện đại. Chúng giúp đưa ra Một hệ thống nhận dạng tiếng nói cơ bản được kết quả chính xác ngay cả khi người thường gồm các thành phần như hình dưới nói bị ngọng nhưng đôi khi cũng là nguyên nhân làm giảm độ chính xác không phản ánh được đúng phân bố xác suất của ngôn ngữ. Tuy đã được chứng minh hiệu quả so với mô hình n-gram truyền thống các mô hình ngôn ngữ dựa trên mạng nơ-ron vốn thường Hình 1. Hệ thống nhận dạng tiếng nói sử dụng mạng hồi quy RNN và biến thể đều Tại khối decoder hệ thống sẽ sử dụng một gặp phải những vấn đề cố hữu của mạng mô hình ngôn ngữ để đánh giá lại tất cả các RNN đó là giả thuyết đã nhận dạng được từ đầu ra của - Khó song song hóa. mô hình phát âm pronunciation model . Số - Tất cả nội dung được mã hóa vào một lượng giả thuyết này có thể lên tới hàng triệu véc-tơ duy nhất. chỉ với một câu nói do đó mô hình ngôn ngữ - Các từ trong câu có vai trò giống nhau thường được sử dụng là n-gram vì tốc độ tính đối với từ cần dự đoán do đó không thể hiện toán rất nhanh. Trong khối decoder sẽ là một hiệu quả nội dung của câu. lưới từ có dạng như sau Từ những nhược điểm trên hiện nay xu thật thế trên cộng đồng trí tuệ nhân tạo đang dần tiếc 2 rất 4 đẹp 5 chuyển sang sử dụng mô hình Transfomer 2 0 Thời 1 1 tiết 0 34 thật địp 3 thay thế cho RNN và đã chứng minh những hiệu quả nhất định. Bài báo này sẽ trình bày Hình 2. Đầu ra của hệ thống nhận dạng thử nghiệm của chúng tôi khi áp dụng mô tiếng nói hình Transformer-XL 1 - biến thể của mạng Kết quả nhận dạng được cuối cùng sẽ là Transformer vào một hệ thống nhận

TỪ KHÓA LIÊN QUAN