tailieunhanh - Một mô hình phát hiện tiếng nói kích thước nhỏ

Bài viết Một mô hình phát hiện tiếng nói kích thước nhỏ đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution. | Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN 978-604-82-7001-8 MỘT MÔ HÌNH PHÁT HIỆN TIẾNG NÓI KÍCH THƯỚC NHỎ Nguyễn Duy Khánh1 Đỗ Văn Hải2 1 Trường Đại học Bách Khoa Hà Nội 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU . Tăng cường dữ liệu Hiện nay có rất nhiều hệ thống liên quan Sử dụng tăng cường dữ liệu data đến xử lí tiếng nói. Tuy nhiên trong một augmentation nhằm giúp mô hình học tránh luồng audio tiếng nói không phải luôn liên quá khớp cũng như tăng tính tổng quát hóa. tục sẽ có những đoạn audio không có sự tồn Trong nghiên cứu này chúng tôi sử dụng 2 tại của tiếng nói con người. Do đó chúng ta phương pháp phổ biến được đề xuất gần đây cần một hệ thống để phát hiển tiếng nói trong là SpecAugment và SpecCutout. audio Voice Activity Detector - VAD . Một . Kiến trúc hệ thống hệ thống VAD sẽ kiểm tra xem có tiếng nói trong một đoạn audio ngắn không để khi áp dụng vào cả đoạn audio dài sẽ biết được phần có tiếng nói trong đó. Gần đây có rất nhiều thiết bị cầm tay có liên quan đến xử lí tiếng nói. Tuy nhiên do là thiết bị cầm tay bộ nhớ và khả năng tính toán của chúng bị giới hạn. Vì thế một mô hình có kích thước nhỏ là cần thiết. Trong nghiên cứu này chúng tôi đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution. Bằng việc sử dụng separable convolution số lượng tham số giảm đi một cách đáng kể trong khi vẫn giữ được độ chính xác cao. 2. HỆ THỐNG ĐỀ XUẤT . Trích chọn đặc trưng Phương pháp trích chọn đặc trưng dùng trong nghiên cứu này là Mel frequency Hình 1. Kiến trúc hệ thống. cepstral coefficients - MFCC một phương pháp được sử dụng rộng rãi trong các hệ Như đã đề cập việc dùng 1D time-channel thống liên quan đến xử lí tiếng nói. separable convolution sẽ giúp làm giảm số 91 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN 978-604-82-7001-8 lượng tham số. Lớp convolution này có thể hình CNN

TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.