Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Hybrid Methods for POS Guessing of Chinese Unknown Words"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Hybrid Methods for POS Guessing of Chinese Unknown Words"
Quang Triều
70
6
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
This paper describes a hybrid model that combines a rule-based model with two statistical models for the task of POS guessing of Chinese unknown words. The rule-based model is sensitive to the type, length, and internal structure of unknown words, and the two statistical models utilize contextual information and the likelihood for a character to appear in a particular position of words of a particular length and POS category. By combining models that use different sources of information, the hybrid model achieves a precision of 89%, a significant improvement over the best result reported in previous studies, which was. | Hybrid Methods for POS Guessing of Chinese Unknown Words Xiaofei Lu Department of Linguistics The Ohio State University Columbus OH 43210 USA xflu@ling.osu.edu Abstract This paper describes a hybrid model that combines a rule-based model with two statistical models for the task of POS guessing of Chinese unknown words. The rule-based model is sensitive to the type length and internal structure of unknown words and the two statistical models utilize contextual information and the likelihood for a character to appear in a particular position of words of a particular length and POS category. By combining models that use different sources of information the hybrid model achieves a precision of 89 a significant improvement over the best result reported in previous studies which was 69 . 1 Introduction Unknown words constitute a major source of difficulty for Chinese part-of-speech POS tagging yet relatively little work has been done on POS guessing of Chinese unknown words. The few existing studies all attempted to develop a unified statistical model to compute the probability of a word having a particular POS category for all Chinese unknown words Chen et al. 1997 Wu and Jiang 2000 Goh 2003 . This approach tends to miss one or more pieces of information contributed by the type length internal structure or context of individual unknown words and fails to combine the strengths of different models. The rule-based approach was rejected with the claim that rules are bound to overgenerate Wu and Jiang 2000 . In this paper we present a hybrid model that combines the strengths of a rule-based model with those of two statistical models for this task. The three models make use of different sources of information. The rule-based model is sensitive to the type length and internal structure of unknown words with overgeneration controlled by additional constraints. The two statistical models make use of contextual information and the likelihood for a character to appear in a .
TÀI LIỆU LIÊN QUAN
Báo cáo tóm tắt đề tài khoa học và công nghệ cấp Bộ: Xác lập mô hình và các thông số cơ bản của hệ thống năng lượng liên thông hybrid biogas-năng lượng mặt trời phù hợp với điều kiện sản xuất và đời sống ở nông thôn Việt Nam
Báo cáo khoa học: "A hybrid rule/model-based finite-state framework for normalizing SMS messages"
Báo cáo khoa học: "A Hybrid Hierarchical Model for Multi-Document Summarization"
Báo cáo khoa học: "An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging"
Báo cáo khoa học: "Creative Language Retrieval: A Robust Hybrid of Information Retrieval and Linguistic Creativity"
Báo cáo khoa học: "Hybrid Approach to User Intention Modeling for Dialog Simulation"
Báo cáo khoa học: Xử lý nước thải tinh bột mì bằng công nghệ Hybrid (lọc sinh học - Aerotank)
Báo cáo khoa học: "Hybrid Parsing: Using Probabilistic Models as Predictors for a Symbolic Parser"
Báo cáo khoa học: "A Hybrid Convolution Tree Kernel for Semantic Role Labeling"
Báo cáo khoa học: "A Hybrid Relational Approach for WSD – First Results"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.