Đang chuẩn bị liên kết để tải về tài liệu:
Phương pháp trích rút từ khóa tìm tập ứng cử trong bài toán phát hiện đạo văn
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Bài viết này đề xuất một phương pháp trích rút tập từ khóa đại diện cho tài liệu đầu vào dựa trên các độ đo tf.idf mức tài liệu và mức đoạn, có xem xét yếu tố từ loại với thứ tự ưu tiên lần lượt là danh từ, tính từ, động từ. Để đánh giá phương pháp đề xuất, chúng tôi tiến hành xây dựng tập dữ liệu thử nghiệm tiếng Việt gồm 10 tài liệu cần kiểm tra với mỗi tài liệu có 10 tài liệu liên quan. | Phương pháp trích rút từ khóa tìm tập ứng cử trong bài toán phát hiện đạo văn Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP TRÍCH RÚT TỪ KHÓA TÌM TẬP ỨNG CỬ TRONG BÀO TOÁN PHÁT HIỆN ĐẠO VĂN Nguyễn Văn Sơn1*, Lê Thanh Hương2, Nguyễn Chí Thành1 Tóm tắt: Trong bài toán phát hiện đạo văn, hai vấn đề quan trọng cần thực hiện là tìm tập tài liệu nghi ngờ bị sao chép và kiểm trùng văn bản. Để tìm tập tài liệu nghi ngờ bị sao chép, vấn đề cốt yếu là phải đưa ra được tập từ khóa đại diện cho tài liệu đầu vào và cho các đoạn trong tài liệu đó. Tập từ khóa này được dùng để sinh câu truy vấn tìm kiếm các tài liệu nghi ngờ bị sao chép. Bài báo này đề xuất một phương pháp trích rút tập từ khóa đại diện cho tài liệu đầu vào dựa trên các độ đo tf.idf mức tài liệu và mức đoạn, có xem xét yếu tố từ loại với thứ tự ưu tiên lần lượt là danh từ, tính từ, động từ. Để đánh giá phương pháp đề xuất, chúng tôi tiến hành xây dựng tập dữ liệu thử nghiệm tiếng Việt gồm 10 tài liệu cần kiểm tra với mỗi tài liệu có 10 tài liệu liên quan. Kết quả thử nghiệm cho thấy với các truy vấn tìm kiếm do hệ thống sinh ra có thể trả về tập tài liệu nghi ngờ với độ chính xác 67,77%. Điều này cho thấy cách tiếp cận đề xuất là có triển vọng. Từ khóa: Đạo văn; Trích rút từ khóa; Tập ứng cử; Tf.idf, Từ loại. 1. ĐẶT VẤN ĐỀ Sự phát triển của Internet đem lại cho chúng ta nhiều tiện nghi như có thể dễ dàng tìm thấy thông tin, tài liệu mình quan tâm, nhưng nó cũng đặt ra nhiều vấn đề như hiện tượng sao chép nội dung của các tài liệu. Đặc biệt là với các báo cáo bài tập lớn, tiểu luận, đồ án tốt nghiệp (ĐATN) và luận văn thạc sĩ thì vấn nạn đó xảy ra rất nhiều. Theo Báo Tuổi trẻ Online số tháng 5/2015, tỉ lệ sinh viên đại học “đạo văn” ở một số trường đại học Việt Nam chiếm tỉ lệ cao so với thế giới. Số liệu khảo sát sinh viên tại Trường Đại học Duy Tân cho thấy trên 70% sinh viên “đạo văn”. Tuy nhiên, việc phát hiện đạo văn không đơn giản. Do hiện nay việc tổ .