Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Learning Sub-Word Units for Open Vocabulary Speech Recognition"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Learning Sub-Word Units for Open Vocabulary Speech Recognition"
Ngọc Tuấn
79
10
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Large vocabulary speech recognition systems fail to recognize words beyond their vocabulary, many of which are information rich terms, like named entities or foreign words. Hybrid word/sub-word systems solve this problem by adding sub-word units to large vocabulary word based systems; new words can then be represented by combinations of subword units. Previous work heuristically created the sub-word lexicon from phonetic representations of text using simple statistics to select common phone sequences. . | Learning Sub-Word Units for Open Vocabulary Speech Recognition Carolina Parada1 Mark Dredze1 Abhinav Sethy2 and Ariya Rastrow1 1 Human Language Technology Center of Excellence Johns Hopkins University 3400 N Charles Street Baltimore MD USA carolinap@jhu.edu mdredze@cs.jhu.edu ariya@jhu.edu 2IBM T.J. Watson Research Center Yorktown Heights NY USA asethy@us.ibm.com Abstract Large vocabulary speech recognition systems fail to recognize words beyond their vocabulary many of which are information rich terms like named entities or foreign words. Hybrid word sub-word systems solve this problem by adding sub-word units to large vocabulary word based systems new words can then be represented by combinations of subword units. Previous work heuristically created the sub-word lexicon from phonetic representations of text using simple statistics to select common phone sequences. We propose a probabilistic model to learn the subword lexicon optimized for a given task. We consider the task of out of vocabulary OOV word detection which relies on output from a hybrid model. A hybrid model with our learned sub-word lexicon reduces error by 6.3 and 7.6 absolute at a 5 false alarm rate on an English Broadcast News and MIT Lectures task respectively. 1 Introduction Most automatic speech recognition systems operate with a large but limited vocabulary finding the most likely words in the vocabulary for the given acoustic signal. While large vocabulary continuous speech recognition LVCSR systems produce high quality transcripts they fail to recognize out of vocabulary OOV words. Unfortunately OOVs are often information rich nouns such as named entities and foreign words and mis-recognizing them can have a disproportionate impact on transcript coherence. 712 Hybrid word sub-word recognizers can produce a sequence of sub-word units in place of OOV words. Ideally the recognizer outputs a complete word for in-vocabulary IV utterances and sub-word units for OOVs. Consider the word Slobodan the
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Learning Condensed Feature Representations from Large Unsupervised Data Sets for Supervised Learning"
Báo cáo khoa học: "Learning Better Data Representation using Inference-Driven Metric Learning"
Báo cáo khoa học: "A Combination of Active Learning and Semi-supervised Learning Starting with Positive and Unlabeled Examples for Word Sense Disambiguation: An Empirical Study on Japanese Web Search Query"
B.A Thesis: English major students’ difficulties and expectations in learning written translation at Dong Thap university
Báo cáo đề tài nghiên cứu khoa học cấp trường: Áp dụng mô hình học tập Blended Learning trong giảng dạy học phần Basic IELTS 1 cho sinh viên theo chương trình đào tạo chất lượng cao năm thứ nhất trường Đại học Thương mại
Báo cáo đề tài nghiên cứu khoa học cấp trường: Nâng cao động lực học tiếng Anh cho sinh viên thông qua phương pháp học theo dự án (project-based learning)
Báo cáo đề tài nghiên cứu khoa học cấp trường: Nghiên cứu một số thuật toán học máy (machine learning) ứng dụng cho bài toán xác định các chủ đề quan tâm của khách hàng trực tuyến
Báo cáo khoa học: "Applications of GPC Rules and Character Structures in Games for Learning Chinese Characters"
Báo cáo khoa học: "Learning and Translating by Machines"
Báo cáo khoa học: "Discriminative Learning for Joint Template Filling"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.