Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Sparse Information Extraction: Unsupervised Language Models to the Rescue"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Sparse Information Extraction: Unsupervised Language Models to the Rescue"
Việt Thanh
87
8
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Even in a massive corpus such as the Web, a substantial fraction of extractions appear infrequently. This paper shows how to assess the correctness of sparse extractions by utilizing unsupervised language models. The R EALM system, which combines HMMbased and n-gram-based language models, ranks candidate extractions by the likelihood that they are correct. Our experiments show that R EALM reduces extraction error by 39%, on average, when compared with previous work. | Sparse Information Extraction Unsupervised Language Models to the Rescue Doug Downey Stefan Schoenmackers and Oren Etzioni Turing Center Department of Computer Science and Engineering University of Washington Box 352350 Seattle WA 98195 USA ddowney stef etzioni @cs.washington.edu Abstract Even in a massive corpus such as the Web a substantial fraction of extractions appear infrequently. This paper shows how to assess the correctness of sparse extractions by utilizing unsupervised language models. The Realm system which combines HMM-based and n-gram-based language models ranks candidate extractions by the likelihood that they are correct. Our experiments show that Realm reduces extraction error by 39 on average when compared with previous work. Because Realm pre-computes language models based on its corpus and does not require any hand-tagged seeds it is far more scalable than approaches that learn models for each individual relation from hand-tagged data. Thus Realm is ideally suited for open information extraction where the relations of interest are not specified in advance and their number is potentially vast. 1 Introduction Information Extraction IE from text is far from infallible. In response researchers have begun to exploit the redundancy in massive corpora such as the Web in order to assess the veracity of extractions e.g. Downey et al. 2005 Etzioni et al. 2005 Feldman et al. 2006 . In essence such methods utilize extraction patterns to generate candidate extractions e.g. Istanbul and then assess each candidate by computing co-occurrence statistics between 696 the extraction and words or phrases indicative of class membership e.g. cities such as . However Zipf s Law governs the distribution of extractions. Thus even the Web has limited redundancy for less prominent instances of relations. Indeed 50 of the extractions in the data sets employed by Downey et al. 2005 appeared only once. As a result Downey etal. s model and related methods had no way of .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Historical Analysis of Legal Opinions with a Sparse Mixed-Effects Latent Variable Model"
Báo cáo khoa học: "Tackling Sparse Data Issue in Machine Translation Evaluation ∗"
Báo cáo khoa học: "Sparse Information Extraction: Unsupervised Language Models to the Rescue"
Báo cáo khoa học: "CONTEXTUAL WORD SIMILARITY AND ESTIMATION FROM SPARSE DATA"
Báo cáo toán học: " Adaptive lifting scheme with sparse criteria for image coding"
Báo cáo toán học: " Parameter estimation for SAR micromotion target based on sparse signal representation"
Báo cáo toán học: " SSIM-inspired image restoration using sparse representation"
Báo cáo toán học: " 2D DOA estimation with sparse uniform circular arrays in the presence of mutual coupling"
Báo cáo toán học: "Limit Probabilities for Random Sparse Bit Strings"
Báo cáo toán học: "Intersections of Randomly Embedded Sparse Graphs are Poisson Edward"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.