tailieunhanh - Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 10 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 10: Tóm tắt văn bản" cung cấp cho người học các kiến thức về tóm tắt văn bản, TextRank. Đây là một tài liệu hữu ích dành cho các bạn sinh viên ngành Công nghệ thông tin và những ai quan tâm dùng làm tài liệu học tập và nghiên cứu. | Chương 10 Tóm tắt văn bản Tóm tắt văn bản TextRank IT4772 Xử lý ngôn ngữ tự nhiên Viện CNTT-TT, ĐHBKHN 2 Chương 10 Tóm tắt văn bản Tóm tắt văn bản INFORMATION EXTRACTION ● NATURAL LANGUAGE UNDERSTANDING END-TO-END APPLICATIONS ● NATURAL LANGUAGE GENERATION Y/c – Tóm lược những điểm chính của văn bản – Đảm bảo tính chính xác về ngôn ngữ, th ống nh ất về cấu trúc Dạng đầu ra: – Tóm tắt trích xuất – Tóm lược văn bản DATA + LINGUISTICS + MACHINE LEARNING 3 4 Chương 10 Tóm tắt văn bản Tóm tắt văn bản ● Chương 10 Tóm tắt văn bản Tóm tắt văn bản Các bài toán ● Tóm tắt trích xuất đơn văn b ản: – Tóm tắt đơn văn bản ● Đầu vào: Văn bản gồm N câu – Tóm tắt đa văn bản ● – Tóm tắt đa văn bản hướng truy vấn Đầu ra: Tóm tắt bao gồm K câu 5 Chương 10 Tóm tắt văn bản TextRank ● 6 Chương 10 Tóm tắt văn bản TextRank Pagerank: Xếp hạng các đỉnh trên đ ồ th ị d ựa trên mức độ quan trọng so với các đ ỉnh khác rank(v) = d * 1/N + (1-d) sum rank(u) / O(u) from Wikipedia 7 8 Chương 10 Tóm tắt văn bản TextRank ● Chương 10 Tóm tắt văn bản TextRank Ứng dụng vào tóm tắt văn bản – ● Tính toán độ tương đồng giữa một c ặp câu Xây dựng đồ thị G(V,E) ● ● V: tập các câu trong văn bản E: e(i,j) - mức độ tương đồng của câu i và câu j – Tính pagerank trên G – Lựa chọn K câu có ranking cao nhất 9 10 Chương 10 Tóm tắt văn bản TextRank ● ● Q&A Ưu điểm: – Thuật toán đơn giản, có thể mở rộng cho nhi ều văn bản – Không cần dữ liệu huấn luyện Nhược điểm: – Phụ thuộc vào độ đo tương đồng của cặp câu – Chưa loại bỏ được dư thừa thông tin trong tóm t .
đang nạp các trang xem trước