tailieunhanh - Một số đánh giá về cuộc thi nhận dạng tiếng nói VLSP 2021
Bài viết Một số đánh giá về cuộc thi nhận dạng tiếng nói VLSP 2021 trình bày mô tả cuộc thi từ khâu chuẩn bị dữ liệu đến khi gửi kết quả cuối cùng của các đội tham gia. Trong đó Task1 tập trung vào việc phát triển mô hình ASR cho các bài giảng trực tuyến. Trong nhiệm vụ này, tập dữ liệu đã được phát hành để huấn luyện bao gồm cả dữ liệu có nhãn và chưa được gán nhãn. | Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN 978-604-82-7001-8 MỘT SỐ ĐÁNH GIÁ VỀ CUỘC THI NHẬN DẠNG TIẾNG NÓI VLSP 2021 Đỗ Văn Hải1 Nguyễn Thị Phương Thảo1 Phạm Thanh Bình1 Trần Thị Minh Hoàn1 1 Trường Đại học Thủy lợi 1. MỞ ĐẦU ASR-Task1 tập trung vào việc phát triển toàn bộ mô hình ASR từ đầu. Ban tổ chức Gần đây Hội thảo quốc tế về xử lý giọng cung cấp hai bộ dữ liệu huấn luyện. Bộ dữ nói và ngôn ngữ tiếng Việt The International liệu đầu tiên là khoảng 241 1 giờ dữ liệu Workshop on Vietnamese Language and được gán nhãn văn bản. Mỗi đội tham gia Speech Processing - VLSP đã tổ chức phải gán nhãn một phần của tập dữ liệu trước thường niên cuộc thi nhận dạng tiếng nói khi nhận toàn bộ tập dữ liệu. Tập dữ liệu thứ Autotmatic Speech Recognition ASR cho hai là khoảng 360 7 giờ dữ liệu được chưa tiếng Việt. Câu lạc bộ VLSP tập hợp tất cả được gán nhãn. Các đội có thể dùng tập dữ các nhóm nghiên cứu học thuật và công liệu thứ hai này để huấn luyện bán giám sát nghiệp liên quan đến xử lý giọng nói và ngôn mô hình. ngữ tiếng Việt. VLSP trực thuộc Hội Tin học Cuộc thi ASR đã thu hút 47 lượt đăng ký Việt Nam. Cuộc thi ASR đầu tiên được tổ và 9 đội gửi kết quả cuối cùng. Có nhiều cách chức trong VLSP 2018. Trong cuộc thi này tiếp cận thú vị với kết quả đáng chú ý đã ban tổ chức không phát hành bộ dữ liệu huấn được đề xuất bởi những người tham gia. Bài luyện nào. Những người tham gia đã sử dụng báo này trình bày mô tả cuộc thi từ khâu bộ dữ liệu công khai hoặc riêng của họ để chuẩn bị dữ liệu đến khi gửi kết quả cuối phát triển các mô hình. Trong VLSP 2019 cùng của các đội tham gia. ban tổ chức đã phát hành tập dữ liệu 500 giờ. Tuy nhiên những người tham gia có thể sử 2. CHUẨN BỊ DỮ LIỆU dụng bất kỳ dữ liệu bổ sung nào để phát triển các mô hình. Trong VLSP 2020 tập dữ liệu Trong phần này chúng tôi thảo luận về 250 giờ đã được phát hành cho các nhóm quá trình xây dựng bộ dữ liệu nhận dạng tham gia để huấn luyện các mô hình. tiếng nói tiếng Việt cho VLSP 2021. Lưu ý
đang nạp các trang xem trước