tailieunhanh - thiết kế hệ thống trả lời tự động, chương 8
Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ tự nhiên của giọng nói tổng hợp chỉ ñến sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức độ dễ nghe chỉ ñến việc câu phát âm có thể hiểu được dễ dàng không. Một máy tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia tăng đến mức tối đa. | Chương 8 Công nghệ tổng hợp giọng nói Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức nộ tự nhiên và mức nộ dễ nghe. Mức nộ tự nhiên của giọng nói tổng hợp chỉ nến sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức nộ dễ nghe chỉ nến việc câu phát âm có thể hiểu nược dễ dàng không. Một máy tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia tăng nến mức tối na hai tính chất này. Một số hệ thống thiên về mức nộ dễ nghe hơn hoặc mức nộ tự nhiên hơn từy thuộc vào mục ních mà công nghệ nược lựa chọn. Có hai công nghệ chính nược dùng là tổng hợp ghép nối và tổng hợp cộng hưởng tần số ngoài ra cũng có một số công nghệ khác. 2. 2. 4. 1. Tổng hợp ghép nối. Tổng hợp ghép nối dựa trên việc nối vào nhau các lìoạn của một giọng nói ñã ñược ghi âm. Thông thường tổng hợp ghép nối tạo ra giọng nói tương ñói tự nhiên. Tuy nhiên giọng nói tự nhiên ñược ghi âm có sự thay lìổ i từ lần phát âm này sang lần phát âm khác và công nghệ tự lìộng hóa việc ghép nối các lìoạn của sóng âm thỉnh thoảng tạo ra những tiếng cọ xát không tự nhiên ở phần ghép nối. Có ba kiểu tổng hợp ghép nối. a. Tổng hợp chọn ño n vị. Tổng hợp chọn ñơn vị dùng một cơ sở dữ liệu lớn các giọng nói ghi âm thông thường dài hơn 1 giờ lìồng hồ ghi âm . Trong lúc ghi âm mỗi câu phát biểu ñược tách ra thành các ñơn vị khác như các âm tỏ lời ñơn lẻ âm tiết hình vị từ nhóm từ và câu văn. Thông thường việc tách ra như vậy cần một máy nhận dạng tiếng nói ñược ñặt ở chế ñó khớp với văn bản viết tương ứng với iìoạn ghi âm và dùng ñến hiển thị sóng âm và phổ âm thanh. Một bảng tra các ñơn vị ñược lập ra dựa trên các phần ñã tách và các thông số âm học như tần số cơ bản thời lượng vị trí của âm tiết và âm tỏ lời gần ñó. Khi chạy các câu phát biểu ñược tạo ra bằng cách xác mnh chuỗi ñơn vị phù hợp nhất từ cơ sở dữ liệu. Quá trình này ñược gọi là chọn ñơn vị và thường cần dùng ñến cây quyết ñmh ñể thực hiện. Kỹ thuật chọn
đang nạp các trang xem trước