tailieunhanh - Đề tài tốt nghiệp đại học: Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa

Đề tài tốt nghiệp đại học: Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa nhằm tìm hiểu cơ sở lý thuyết của phương pháp tóm tắt văn bản dựa vào trích xuất câu bao gồm: tổng quan về tóm tắt văn bản, các mô hình tóm tắt, đặc điểm Tiếng Việt, phương pháp sử dụng trong tóm tắt văn bản; xây dựng được phần mềm tóm tắt văn bản dựa vào trích xuất các câu quan trọng trong văn bản theo một tỷ lệ nén nhất định. | ) – theo các công thức tính độ tương tự. Nếu độ tương tự này đạt đến một ngưỡng đủ lớn thì ta nói rằng chúng có “liên quan về mặt ngữ nghĩa”, và ta có thể thiết lập một liên kết giữa hai văn bản này. Áp dụng phương pháp này vào việc tóm tắt văn bản tự động, thay vì tìm liên kết giữa các văn bản, ta sẽ tìm liên kết trong nội bộ văn bản (liên kết giữa các câu trong văn bản). Sau khi xây dựng được đồ thị quan hệ, ta có được hình vẽ trực quan cấu trúc của văn bản. Từ cấu trúc này, ta có thể xây dựng văn bản tóm tắt bằng cách trích xuất ra các câu phù hợp. Trong việc xác định ngưỡng để quyết định hai câu trong văn bản có quan hệ với nhau về mặt ngữ nghĩa hay không có một ý nghĩa quan trọng, bởi lẽ ngưỡng này có thể là tốt cho một dạng văn bản nào đó nhưng lại không tốt cho văn bản khác. Như vậy, trong quá trình xây dựng và đánh giá kết quả của chương trình tóm tắt văn bản, cần phải thực nghiệm với nhiều ngưỡng khác nhau để chọn ra một ngưỡng thích hợp. Khi áp dụng phương pháp cấu trúc văn bản này đối với văn bản tiếng Việt do có những khác biệt đối với văn bản tiếng Anh nên cần phải có một số cải tiến để nâng cao độ chính xác.

TỪ KHÓA LIÊN QUAN