tailieunhanh - Cơ sở dữ liệu audio video ảnh

Tìm kiếm văn bản nói: Mục tiêu: Cho phép tìm kiếm trên văn bản nói như văn bản bình thường. Tìm kiếm với độ chính xác cao. Cho phép duyệt kết quả trả về. Tìm nhanh đoạn mà người dùng muốn nghe hoặc xem. Tìm kiếm: Đoạn văn bản chứa nội dung nói. Bản tóm tắt của tài liệu nói. Các thông tin khác. Người nói. Các thông tin siêu dữ liệu. | Cơ sở dữ liệu audio Le Thi Lan MICA Ngữ cảnh Cơ sở dữ liệu tiếng nói Broadcast News Podcasts Academic Lectures Nhận dạng tiếng nói Tìm kiếm văn bản tiếng nói Nhận dạng tiếng nói Đưa ra câu gần giống nhất với đầu vào O O được xem như một dãy quan sát O = o1,o2,o3, ,ot Xác định dãy các từ W = w1,w2,w3, ,wn Luật Bayes Luật vàng Kiến trúc của hệ thống nhận dạng tiếng nói Feature Extraction Decoding Acoustic Model Pronunciation Model Language Model Speech Signals Word Sequence Network Construction Speech DB Text Corpora HMM Estimation G2P LM Estimation grapheme-to-phoneme Trích chọn đặc trưng Đặc trưng MFCC - The Mel-Frequency Cepstrum Coefficients (MFCC) Kích thước của cửa sổ : 25ms / Tốc độ : 10ms Preemphasis/ Hamming Window FFT (Fast Fourier Transform) Mel-scale filter bank log|.| DCT (Discrete Cosine Transform) MFCC (12-Dimension) X(n) 25 ms 10ms . . . a1 a2 a3 Tìm kiếm văn bản nói Mục tiêu: Cho phép tìm kiếm trên văn bản nói như văn bản bình thường Tìm kiếm với độ chính xác cao Cho phép duyệt kết quả trả về Tìm nhanh đoạn mà người dùng muốn nghe hoặc xem Tìm kiếm: Đoạn văn bản chứa nội dung nói Bản tóm tắt của tài liệu nói Các thông tin khác Người nói Các thông tin siêu dữ liệu Đoạn văn bản chứa nội dung nói Thủ công: Tốn kém Có nhiều lỗi Theo nghiên cứu của MIT Đoạn văn bản chuẩn bị thủ công có 10% khác so với nội dung thực sự Misspelled words Furui Frewey Makhoul McCool Tukey Tuki Eigen igan Gaussian galsian cepstrum capstrum Substitution errors Fourier for your Kullback callback a priori old prairie resonant resident affricates aggregates palatal powerful Gán ngữ nghĩa Con người thực hiện gán ngữ nghĩa trong thời gian gấp từ 10 đến 50 lần thời gian thực Ghi lại toàn bộ nội dung đoạn âm thanh Xác định người nói, thay đổi người nói Xác định các sự kiện không có người nói và nhiễu nền Phân đoạn và tóm tắt nội dung Gán ngữ nghĩa Mục tiêu: Tự động sinh ngữ nghĩa cho các đoạn âm thanh Ghi lại nội dung (Từ đã được nói) Xác định người nói và thời gian Phân đoạn (theo chủ đề) Tóm tắt Chỉ số hóa Tìm kiếm Tìm kiếm Tập hợp N tài liệu “lớn” N: 10k-1M tài liệu “bé” N: Tìm kiếm văn bản tiếng nói với TREC Text Retrieval Conference (TREC) Đánh giá nhận dạng tiếng nói từ 1997-2000 (TREC-6 đếnTREC-9) TREC-8 : Bản tin, 22,000 bản tinh với 500 giờ âm thanh Tìm kiểm văn bản tiếng nói - Bản tin Được chuẩn bị kỹ, đọc bởi phát thanh viên chuyên nghiệp Ngôn ngữ sử dụng giống với ngôn ngữ viết Từ vựng có thể được học qua các bản tin hàng Nhiều nội dung có sẵn phụ đề Tìm kiếm văn bản tiếng nói khác Các văn bản khác Nội dung cuộc họp (Waibel et al, 2001) Đọc thư (SCANMail, Bacchiani et al, 2001)) Bài giảng Những khó khăn: Tiếng nói tự nhiên, không chuẩn bị trước Từ vựng và cách sử dụng ngôn ngữ tùy thuộc vào từng người và từng chủ đề Không biết nội dung Nhiều giọng điệu, vùng miền Phát hiện các từ (thuật ngữ ) được nói trong một cơ sở dữ liệu không đồng nhất STD (Spoken Term Detection) Mục tiêu Đánh giá tốc độ và độ chính xác Đánh giá khả năng phát hiện từ và âm Đánh giá kỹ thuật cho 3 ngôn ngữ (Anh, Ả rập và Trung Quốc) TREC STD Documents Broadcast News BN, Switchboard, Meeting Languages English English, Arabic, Mandarin Query Long Short (few words) System Output Ranked Relevant documents Location of the query in the audio Decision Score indicating how likely the term exists “Actual” decision as to whether the detected term is a hit Tìm kiếm văn bản tiếng nói khác

TỪ KHÓA LIÊN QUAN