Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Using Large Monolingual and Bilingual Corpora to Improve Coordination Disambiguation"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Using Large Monolingual and Bilingual Corpora to Improve Coordination Disambiguation"
Quốc Hiển
72
10
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Resolving coordination ambiguity is a classic hard problem. This paper looks at coordination disambiguation in complex noun phrases (NPs). Parsers trained on the Penn Treebank are reporting impressive numbers these days, but they don’t do very well on this problem (79%). We explore systems trained using three types of corpora: (1) annotated (e.g. the Penn Treebank), (2) bitexts (e.g. Europarl), and (3) unannotated monolingual (e.g. Google N-grams). Size matters: (1) is a million words, (2) is potentially billions of words and (3) is potentially trillions of words. . | Using Large Monolingual and Bilingual Corpora to Improve Coordination Disambiguation Shane Bergsma David Yarowsky Kenneth Church Deptartment of Computer Science and Human Language Technology Center of Excellence Johns Hopkins University sbergsma@jhu.edu yarowsky@cs.jhu.edu kenneth.church@jhu.edu Abstract Resolving coordination ambiguity is a classic hard problem. This paper looks at coordination disambiguation in complex noun phrases NPs . Parsers trained on the Penn Treebank are reporting impressive numbers these days but they don t do very well on this problem 79 . We explore systems trained using three types of corpora 1 annotated e.g. the Penn Treebank 2 bitexts e.g. Eu-roparl and 3 unannotated monolingual e.g. Google N-grams . Size matters 1 is a million words 2 is potentially billions of words and 3 is potentially trillions of words. The unannotated monolingual data is helpful when the ambiguity can be resolved through associations among the lexical items. The bilingual data is helpful when the ambiguity can be resolved by the order of words in the translation. We train separate classifiers with monolingual and bilingual features and iteratively improve them via co-training. The co-trained classifier achieves close to 96 accuracy on Treebank data and makes 20 fewer errors than a supervised system trained with Treebank annotations. 1 Introduction Determining which words are being linked by a coordinating conjunction is a classic hard problem. Consider the pair ellipsis rocket w and mortar w2 attacks h ellipsis asbestos vn and polyvinyl w2 chloride h ellipsis is about both rocket attacks and mortar attacks unlike ellipsis which is not about asbestos 1346 chloride. We use h to refer to the head of the phrase and W1 and w2 to refer to the other two lexical items. Natural Language Processing applications need to recognize NP ellipsis in order to make sense of new sentences. For example if an Internet search engine is given the phrase rocket attacks as a query it .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Using Large Monolingual and Bilingual Corpora to Improve Coordination Disambiguation"
Báo cáo khoa học: "Large-Scale Cross-Document Coreference Using Distributed Inference and Hierarchical Models "
Báo cáo khoa học: "Improving data-driven dependency parsing using large-scale LFG grammars"
Báo cáo toán học: " Facile synthesis of uniform large-sized InP nanocrystal quantum dots using tris(tert-butyldimethylsilyl)phosphine"
báo cáo khoa học: " Identification of an extensive gene cluster among a family of PPOs in Trifolium pratense L. (red clover) using a large insert BAC library"
báo cáo khoa học: "Genomic profiling of plasmablastic lymphoma using array comparative genomic hybridization (aCGH): revealing significant overlapping genomic lesions with diffuse large B-cell lymphoma"
Báo cáo y học: "Assessment of the effects and limitations of the 1998 to 2008 Abbreviated Injury Scale map using a large "
Báo cáo y học: "MetaReg: a platform for modeling, analysis and visualization of biological systems using large-scale experimental data"
Báo cáo hóa học: "Research Article Asymptotic Analysis of Large Cooperative Relay Networks Using Random Matrix Theory"
Báo cáo hóa học: "Fabrication of Large Area Periodic Nanostructures Using Nanosphere Photolithography"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.