Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora"
Hồng Hà
83
9
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Chinese abbreviations are widely used in modern Chinese texts. Compared with English abbreviations (which are mostly acronyms and truncations), the formation of Chinese abbreviations is much more complex. Due to the richness of Chinese abbreviations, many of them may not appear in available parallel corpora, in which case current machine translation systems simply treat them as unknown words and leave them untranslated. | Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora Zhifei Li and David Yarowsky Department of Computer Science and Center for Language and Speech Processing Johns Hopkins University Baltimore MD 21218 USA zhifei.work@gmail.com and yarowsky@cs.jhu.edu Abstract Chinese abbreviations are widely used in modern Chinese texts. Compared with English abbreviations which are mostly acronyms and truncations the formation of Chinese abbreviations is much more complex. Due to the richness of Chinese abbreviations many of them may not appear in available parallel corpora in which case current machine translation systems simply treat them as unknown words and leave them untranslated. In this paper we present a novel unsupervised method that automatically extracts the relation between a full-form phrase and its abbreviation from monolingual corpora and induces translation entries for the abbreviation by using its full-form as a bridge. Our method does not require any additional annotated data other than the data that a regular translation system uses. We integrate our method into a state-of-the-art baseline translation system and show that it consistently improves the performance of the baseline system on various NIST MT test sets. 1 Introduction The modern Chinese language is a highly abbreviated one due to the mixed use of ancient singlecharacter words with modern multi-character words and compound words. According to Chang and Lai 2004 approximately 20 of sentences in a typical news article have abbreviated words in them. Abbreviations have become even more popular along with the development of Internet media e.g. online chat weblog newsgroup and so on . While English words are normally abbreviated by either their Full-form Abbreviation Translation Hong Kong Governor Security Council Figure 1 Chinese Abbreviations Examples first letters i.e. acronyms or via truncation the formation of Chinese abbreviations is much more complex. Figure 1 .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Unsupervised Relation Discovery with Sense Disambiguation"
Báo cáo khoa học: "Unsupervised Semantic Role Induction with Global Role Ordering"
Báo cáo khoa học: "Towards the Unsupervised Acquisition of Discourse Relations"
Báo cáo khoa học: "Unsupervised Morphology Rivals Supervised Morphology for Arabic MT"
Báo cáo khoa học: "Smaller Alignment Models for Better Translations: Unsupervised Word Alignment with the 0"
Báo cáo khoa học: "A Statistical Model for Unsupervised and Semi-supervised Transliteration Mining"
Báo cáo khoa học: "Fully Unsupervised Core-Adjunct Argument Classification"
Báo cáo khoa học: "Unsupervised Ontology Induction from Text"
Báo cáo khoa học: "Improved Unsupervised POS Induction through Prototype Discovery"
Báo cáo khoa học: "Unsupervised Event Coreference Resolution with Rich Linguistic Features"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.