Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Different Structures for Evaluating Answers to Complex Questions: Pyramids Won’t Topple, and Neither Will Human Assessors"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Different Structures for Evaluating Answers to Complex Questions: Pyramids Won’t Topple, and Neither Will Human Assessors"
Huy Kha
61
8
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
The idea of “nugget pyramids” has recently been introduced as a refinement to the nugget-based methodology used to evaluate answers to complex questions in the TREC QA tracks. This paper examines data from the 2006 evaluation, the first large-scale deployment of the nugget pyramids scheme. We show that this method of combining judgments of nugget importance from multiple assessors increases the stability and discriminative power of the evaluation while introducing only a small additional burden in terms of manual assessment. . | Different Structures for Evaluating Answers to Complex Questions Pyramids Won t Topple and Neither Will Human Assessors Hoa Trang Dang Information Access Division National Institute of Standards and Technology Gaithersburg MD 20899 hoa.dang@nist.gov Jimmy Lin College of Information Studies University of Maryland College Park MD 20742 jimmylin@umd.edu Abstract The idea of nugget pyramids has recently been introduced as a refinement to the nugget-based methodology used to evaluate answers to complex questions in the TREC QA tracks. This paper examines data from the 2006 evaluation the first large-scale deployment of the nugget pyramids scheme. We show that this method of combining judgments of nugget importance from multiple assessors increases the stability and discriminative power of the evaluation while introducing only a small additional burden in terms of manual assessment. We also consider an alternative method for combining assessor opinions which yields a distinction similar to micro- and macro-averaging in the context of classification tasks. While the two approaches differ in terms of underlying assumptions their results are nevertheless highly correlated. 1 Introduction The emergence of question answering QA systems for addressing complex information needs has necessitated the development and refinement of new methodologies for evaluating and comparing systems. In the Text REtrieval Conference TREC QA tracks organized by the U.S. National Institute of Standards and Technology NIST improvements in evaluation processes have kept pace with the evolution of QA tasks. For the past several years NIST has implemented an evaluation methodology based 768 on the notion of information nuggets to assess answers to complex questions. As it has become the de facto standard for evaluating such systems the research community stands to benefit from a better understanding of the characteristics of this evaluation methodology. This paper explores recent refinements to the .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Are These Documents Written from Different Perspectives? A Test of Different Perspectives Based On Statistical Distribution Divergence"
báo cáo khoa học: " AIDS-Kaposi Sarcoma and Classic Kaposi Sarcoma: are different ultrasound patterns related to different variants?"
Báo cáo khoa học: " Estimation of pulmonary capillary pressure: different methods for different pathophysiological processes"
Báo cáo khoa học: "Abrasions and lameness in piglets born in different farrowing systems with different types of floor"
Báo cáo y học: " The retroviral RNA dimer linkage: different structures may reflect different roles"
báo cáo hóa học:" Different effects of femoral and tibial rotation on the different measurements of patella tilting: An axial computed tomography study"
Báo cáo khoa học: "Chinese Term Extraction Using Different Types of Relevance"
Báo cáo khoa học: "Performance of young jack pine trees originating from two different branch angle traits under different intensities of competition"
Báo cáo khoa học: "Concept Unification of Terms in Different Languages for IR"
Báo cáo khoa học: "Different Structures for Evaluating Answers to Complex Questions: Pyramids Won’t Topple, and Neither Will Human Assessors"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.