tailieunhanh - Tổng hợp tiếng Việt có cảm xúc

Bài báo này đề xuất một phương pháp tổng hợp tiếng Việt dựa trên ghép nối âm vị kép, trong đó các biến thiên F0 của các âm được tổng hợp giống như biến thiên F0 của tiếng nói tự nhiên. Hơn nữa, để tích hợp cảm xúc vào tiếng Việt tổng hợp, bài báo trình bày một phương pháp tổng hợp dựa trên mô hình Fujisaki. Ba cảm xúc khác nhau được thử nghiệm là buồn, tức và vui. Các kết quả đánh giá khách quan và chủ quan chất lượng tiếng Việt tổng hợp cũng được trình bày trong nghiên cứu này. | Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông Tổng hợp tiếng Việt có cảm xúc Lê Xuân Thành1 , Trịnh Văn Loan1 , Nguyễn Hồng Quang1 , Đào Thị Lệ Thủy1,2 , Đinh Đồng Lưỡng3 1 Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội 2 Khoa Công nghệ Thông tin, Trường Cao đẳng nghề Công nghệ cao Hà Nội 3 Khoa Công nghệ Thông tin, Trường Đại học Nha Trang E-mail: thanhlx@, loantv@, quangnh@, thuydt@, quangnh@ Tác giả liên hệ: Lê Xuân Thành Ngày nhận: 06/11/2017, ngày sửa chữa: 11/12/2017, ngày duyệt đăng: 28/12/2017 Tóm tắt: Tiếng Việt là ngôn ngữ đơn âm tiết và có thanh điệu. Để tổng hợp tiếng Việt chất lượng tốt, việc đảm bảo chất lượng của thanh điệu tổng hợp sao cho càng gần với thanh điệu tự nhiên là rất quan trọng. Bài báo này đề xuất một phương pháp tổng hợp tiếng Việt dựa trên ghép nối âm vị kép, trong đó các biến thiên F0 của các âm được tổng hợp giống như biến thiên F0 của tiếng nói tự nhiên. Hơn nữa, để tích hợp cảm xúc vào tiếng Việt tổng hợp, bài báo trình bày một phương pháp tổng hợp dựa trên mô hình Fujisaki. Ba cảm xúc khác nhau được thử nghiệm là buồn, tức và vui. Các kết quả đánh giá khách quan và chủ quan chất lượng tiếng Việt tổng hợp cũng được trình bày trong nghiên cứu này. Từ khóa: Tiếng Việt, tổng hợp, thanh điệu, cảm xúc, ghép nối, Fujisaki. Title: Abstract: Keywords: Synthesis of Emotional Vietnamese Vietnamese is a monosyllabic and tonal language. To synthesize good quality Vietnamese, the quality of synthesized tones, which is ideally close to that of natural speech, is very important. This paper proposes a concatenation-based synthesis method for Vietnamese in which the variations of F0 of the synthesized tones are as similar as natural voice. Furthermore, in order to integrate emotions into the synthesized speech, the paper presents a synthesis method based on Fujisaki model. Three different emotions are .

TỪ KHÓA LIÊN QUAN