Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Contextual Dependencies in Unsupervised Word Segmentation∗"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Contextual Dependencies in Unsupervised Word Segmentation∗"
Ngọc Minh
76
8
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Developing better methods for segmenting continuous text into words is important for improving the processing of Asian languages, and may shed light on how humans learn to segment speech. We propose two new Bayesian word segmentation methods that assume unigram and bigram models of word dependencies respectively. The bigram model greatly outperforms the unigram model (and previous probabilistic models), demonstrating the importance of such dependencies for word segmentation. We also show that previous probabilistic models rely crucially on suboptimal search procedures. . | Contextual Dependencies in Unsupervised Word Segmentation Sharon Goldwater and Thomas L. Griffiths and Mark Johnson Department of Cognitive and Linguistic Sciences Brown University Providence RI 02912 Sharon_Goldwater Tom_Griffiths Mark_Johnson @brown. edu Abstract Developing better methods for segmenting continuous text into words is important for improving the processing of Asian languages and may shed light on how humans learn to segment speech. We propose two new Bayesian word segmentation methods that assume unigram and bigram models of word dependencies respectively. The bigram model greatly outperforms the unigram model and previous probabilistic models demonstrating the importance of such dependencies for word segmentation. We also show that previous probabilistic models rely crucially on sub-optimal search procedures. 1 Introduction Word segmentation i.e. discovering word boundaries in continuous text or speech is of interest for both practical and theoretical reasons. It is the first step of processing orthographies without explicit word boundaries such as Chinese. It is also one of the key problems that human language learners must solve as they are learning language. Many previous methods for unsupervised word segmentation are based on the observation that transitions between units characters phonemes or syllables within words are generally more predictable than transitions across word boundaries. Statistics that have been proposed for measuring these differences include successor frequency Harris 1954 transitional probabilities Saf-fran et al. 1996 mutual information Sun et al. This work was partially supported by the following grants NIH 1R01-MH60922 NIH RO1-Dc000314 NsF IGERT-DGE-9870676 and the DARPA CALO project. 1998 accessor variety Feng et al. 2004 and boundary entropy Cohen and Adams 2001 . While methods based on local statistics are quite successful here we focus on approaches based on explicit probabilistic models. Formulating an explicit .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: " Contextual Analysis in Word-for-word MT"
Báo cáo khoa học: "Contextual Analysis"
Báo cáo khoa học: "Contextual Preferences"
Báo cáo khoa học: "Contextual Dependencies in Unsupervised Word Segmentation∗"
Báo cáo khoa học: "Detecting Semantic Relations between Named Entities in Text Using Contextual Features"
Báo cáo khoa học: "Determining the Specificity of Terms using Compositional and Contextual Information"
Báo cáo khoa học: "CONTEXTUAL WORD SIMILARITY AND ESTIMATION FROM SPARSE DATA"
báo cáo khoa học: " Psychosocial and contextual correlates of opioid overdose risk among drug users in St. Petersburg, Russia"
báo cáo khoa học: " Contextual influences on health worker motivation in district hospitals in Kenya"
Báo cáo toán học: " Some Periodicity of Words and Marcus Contextual Grammars"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.