Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Syntactic Annotations for the Google Books Ngram Corpus"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Syntactic Annotations for the Google Books Ngram Corpus"
Sơn Lâm
68
6
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
We present a new edition of the Google Books Ngram Corpus, which describes how often words and phrases were used over a period of five centuries, in eight languages; it reflects 6% of all books ever published. This new edition introduces syntactic annotations: words are tagged with their part-of-speech, and headmodifier relationships are recorded. The annotations are produced automatically with statistical models that are specifically adapted to historical text. | Syntactic Annotations for the Google Books Ngram Corpus Yuri Lin Jean-Baptiste Michel Erez Lieberman Aiden Jon Orwant Will Brockman and Slav Petrov Google Inc. yurilin jbmichel drerez orwant brockman slav @google.com Abstract We present a new edition of the Google Books Ngram Corpus which describes how often words and phrases were used over a period of five centuries in eight languages it reflects 6 of all books ever published. This new edition introduces syntactic annotations words are tagged with their part-of-speech and headmodifier relationships are recorded. The annotations are produced automatically with statistical models that are specifically adapted to historical text. The corpus will facilitate the study of linguistic trends especially those related to the evolution of syntax. 1 Introduction The Google Books Ngram Corpus Michel et al. 2011 has enabled the quantitative analysis of linguistic and cultural trends as reflected in millions of books written over the past five centuries. The corpus consists of words and phrases i.e. ngrams and their usage frequency over time. The data is available for download and can also be viewed through the interactive Google Books Ngram Viewer at http books.google.com ngrams. The sheer quantity of and broad historical scope of the data has enabled a wide range of analyses Michel et al. 2011 Ravallion 2011 . Of course examining raw ngram frequencies is of limited utility when studying many aspects of linguistic change particularly the ones related to syntax. For instance most English verbs are regular their past tense is formed by adding -ed and the few exceptions known as irregular verbs tend to regularize over the Corresponding author. Figure 1 Usage frequencies of burned and burnt over time showing that burned became the dominant spelling around 1880. Our new syntactic annotations enable a more refined analysis suggesting that the crossing-point for the verb usage burned-VERB vs. burntVERB was decades earlier. centuries .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Filtering Syntactic Constraints for Statistical Machine Translation"
Báo cáo khoa học: "Online Plagiarism Detection Through Exploiting Lexical, Syntactic, and Semantic Information"
Báo cáo khoa học: "A Framework for Syntactic Translation"
Báo cáo khoa học: "A New Approach to the Mechanical Syntactic Analysis of Russian"
Báo cáo khoa học: "Syntactic Dependence and the Computer Generation of Coherent Discourse"
Báo cáo khoa học: " Connectability Calculations, Syntactic Functions, and Russian Syntax"
Báo cáo khoa học: "Large-Scale Syntactic Language Modeling with Treelets"
Báo cáo khoa học: "Joint Evaluation of Morphological Segmentation and Syntactic Parsing"
Báo cáo khoa học: "Fast Syntactic Analysis for Statistical Language Modeling via Substructure Sharing and Uptraining"
Báo cáo khoa học: "Verb Classification using Distributional Similarity in Syntactic and Semantic Structures"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.