Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Cutting the Long Tail: Hybrid Language Models for Translation Style Adaptation"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Cutting the Long Tail: Hybrid Language Models for Translation Style Adaptation"
Minh Kỳ
92
10
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
In this paper, we address statistical machine translation of public conference talks. Modeling the style of this genre can be very challenging given the shortage of available in-domain training data. We investigate the use of a hybrid LM, where infrequent words are mapped into classes. Hybrid LMs are used to complement word-based LMs with statistics about the language style of the talks. Extensive experiments comparing different settings of the hybrid LM are reported on publicly available benchmarks based on TED talks, from Arabic to English and from English to French. The proposed models show to better exploit in-domain data. | Cutting the Long Tail Hybrid Language Models for Translation Style Adaptation Arianna Bisazza and Marcello Federico Fondazione Bruno Kessler Trento Italy bisazza federico @fbk.eu Abstract In this paper we address statistical machine translation of public conference talks. Modeling the style of this genre can be very challenging given the shortage of available in-domain training data. We investigate the use of a hybrid LM where infrequent words are mapped into classes. Hybrid LMs are used to complement word-based LMs with statistics about the language style of the talks. Extensive experiments comparing different settings of the hybrid LM are reported on publicly available benchmarks based on TED talks from Arabic to English and from English to French. The proposed models show to better exploit in-domain data than conventional word-based LMs for the target language modeling component of a phrase-based statistical machine translation system. 1 Introduction The translation of TED conference talks1 is an emerging task in the statistical machine translation SMT community Federico et al. 2011 . The variety of topics covered by the speeches as well as their specific language style make this a very challenging problem. Fixed expressions colloquial terms figures of speech and other phenomena recurrent in the talks should be properly modeled to produce translations that are not only fluent but that also employ the right register. In this paper we propose a language modeling technique that leverages indomain training data for style adaptation. 1http www.ted.com talks Hybrid class-based LMs are trained on text where only infrequent words are mapped to Part-of-Speech POS classes. In this way topicspecific words are discarded and the model focuses on generic words that we assume more useful to characterize the language style. The factorization of similar expressions made possible by this mixed text representation yields a better ngram coverage but with a much higher .
TÀI LIỆU LIÊN QUAN
Báo cáo vật lý: "Performance of Carbide Cutting Tool when Machining Cast Iron FC 250 in Dry Condition and Using Cutting Fluid"
Báo cáo khoa học: "Medical post-traumatic stress disorder: catching up with the cutting edge in stress research"
Báo cáo y học: "Metagenomics for studying unculturable microorganisms: cutting the Gordian knot"
Báo cáo hóa học: " Study of Materials Deformation in Nanometric Cutting by Large-scale Molecular Dynamics Simulations"
Báo cáo hóa học: " Atomistic aspects of ductile responses of cubic silicon carbide during nanometric cutting"
Báo cáo khoa học: "Effects of livestock and prescribed fire on coppice growth after selective cutting of Sudanian savannah in Burkina Fas"
Báo cáo khoa học: "Effect of inoculation and substrate disinfection method on rooting and ectomycorrhiza formation of Douglas fir cutting"
Báo cáo khoa học: "Effect of article genotype and cutting type on the vegetative propagation of the pine hybrid (Pinus brutia (Ten) x Pinus halepensis (Mill)"
Báo cáo khoa học: "Vegetative propagation of oak (Quercus robur and Q petraea) by cutting and tissue culture"
Báo cáo khoa học: "Cutting propagation of Quercus acutissima clones after rejuvenation through serial grafting"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.