Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Language Dynamics and Capitalization using Maximum Entropy"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Language Dynamics and Capitalization using Maximum Entropy"
Yến Anh
91
4
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
This paper studies the impact of written language variations and the way it affects the capitalization task over time. A discriminative approach, based on maximum entropy models, is proposed to perform capitalization, taking the language changes into consideration. The proposed method makes it possible to use large corpora for training. The evaluation is performed over newspaper corpora using different testing periods. The achieved results reveal a strong relation between the capitalization performance and the elapsed time between the training and testing data periods. . | Language Dynamics and Capitalization using Maximum Entropy Fernando Batista Nuno Mamedea c and Isabel Trancosoa c a L2F - Spoken Language Systems Laboratory - INESC ID Lisboa R. Alves Redol 9 1000-029 Lisboa Portugal http www.l2f.inesc-id.pt b ISCTE - Instituto de Ciências do Trabalho e da Empresa Portugal c IST - Instituto Superior Técnico Portugal. fmmb njm imt @l2f.inesc-id.pt Abstract This paper studies the impact of written language variations and the way it affects the capitalization task over time. A discriminative approach based on maximum entropy models is proposed to perform capitalization taking the language changes into consideration. The proposed method makes it possible to use large corpora for training. The evaluation is performed over newspaper corpora using different testing periods. The achieved results reveal a strong relation between the capitalization performance and the elapsed time between the training and testing data periods. 1 Introduction The capitalization task also known as truecasing Lita et al. 2003 consists of rewriting each word of an input text with its proper case information. The capitalization of a word sometimes depends on its current context and the intelligibility of texts is strongly influenced by this information. Different practical applications benefit from automatic capitalization as a preprocessing step when applied to speech recognition output which usually consists of raw text automatic capitalization provides relevant information for automatic content extraction named entity recognition and machine translation many computer applications such as word processing and e-mail clients perform automatic capitalization along with spell corrections and grammar check. The capitalization problem can be seen as a sequence tagging problem Chelba and Acero 2004 Lita et al. 2003 Kim and Woodland 2004 where each lower-case word is associated to a tag that describes its capitalization form. Chelba and Acero 2004 study the impact of .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Deciphering Foreign Language by Combining Language Models and Context Vectors"
Báo cáo khoa học: "A Phonotactic Language Model for Spoken Language Identification"
Báo cáo khoa học: "Multi-Class Composite N-gram Language Model for Spoken Language Processing Using Multiple Word Clusters"
Báo cáo khoa học: "A Preference-first Language Processor Integrating the Unification Grammar and Markov Language Model for Speech Recognition-ApplicationS"
Báo cáo khoa học: "GEMINI: A NATURAL LANGUAGE SYSTEM FOR SPOKEN-LANGUAGE UNDERSTANDING*"
Báo cáo khoa học: "LANGUAGE-BASED ENVIRONMENT FOR NATURAL LANGUAGE ENGLISH PARSING"
Báo cáo toán học: " Dialogic meaning construction and emergent reading domains among four young English language learners in second-language reading"
báo cáo khoa học: "The applicability of normalisation process theory to speech and language therapy: a review of qualitative research on a speech and language intervention"
Báo cáo sinh học: " Dialogic meaning construction and emergent reading domains among four young English language learners in second-language reading Deoksoon Kim"
Báo cáo hóa học: " Dialogic meaning construction and emergent reading domains among four young English language learners in second-language reading"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.