tailieunhanh - Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản

Bài báo này trình bày phương pháp mã hóa văn bản thành các chuỗi số duy nhất, được gọi tên là chuỗi DNA nhằm giải quyết bài toán đánh giá mức độ giống nhau của một văn bản với tập văn bản khác có trong kho dữ liệu để ứng dụng trong phát hiện sao chép văn bản. | Hồ Phan Hiếu Nguyễn Thị Ngọc Anh và Võ Trung Hùng 223 Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản Hồ Phan Hiếu Nguyễn Thị Ngọc Anh và Võ Trung Hùng The University of Danang 41 Leduan St. Danang City Vietnam hophanhieu@ ngocanhnt@ vthung@ Tóm tắt. Trong bài báo này chúng tôi trình bày phương pháp mã hóa văn bản thành các chuỗi số duy nhất được gọi tên là chuỗi DNA nhằm giải quyết bài toán đánh giá mức độ giống nhau của một văn bản với tập văn bản khác có trong kho dữ liệu để ứng dụng trong phát hiện sao chép văn bản. Chúng tôi thực nghiệm trên bộ dữ liệu của PAN với các mức ngưỡng từ ε 10-5 đến ε 10-10 và cho thấy khi lựa chọn ngưỡng ε 10-10 cho kết quả có độ chính xác prec trên 98 và rec gần 97 trong việc phát hiện sự giống nhau của văn bản. Kết quả thực nghiệm cho thấy phương pháp đề xuất có độ chính xác rất cao và có thể triển khai vào thực tế tại Đại học Đà Nẵng. Từ khóa Mã hóa văn bản chuỗi DNA độ tương đồng phát hiện sao chép. 1 Giới thiệu Trên thế giới các kết quả nghiên cứu về đánh giá độ tương đồng mức độ giống nhau trong văn bản tiếng Anh đã có nhiều công trình nghiên cứu và nhiều ứng dụng hữu ích trong đó có bài toán phát hiện sao chép hay đạo văn 1-3 . Tuy nhiên vấn đề này vẫn còn nhiều thách thức cần được nghiên cứu. Tuy đã có nhiều nghiên cứu và hệ thống phát hiện sao chép văn bản nhưng đến này vẫn chưa có cơ sở chung nào để đánh giá hiệu quả của chúng. Trong khi đó ở Việt Nam cũng mới bắt đầu có các nhóm nghiên cứu về lĩnh vực này 4 5 và cũng có rất ít nhóm xây dựng hệ thống ứng dụng vào thực tiễn hoặc thương mại hóa. Bên cạnh đó các vấn đề trong xử lý ngôn ngữ tự nhiên tìm kiếm và so khớp nội dung tài liệu văn bản là lĩnh vực đang được cộng đồng khoa học trong và ngoài nước quan tâm. Đối với các bài toán xử lý văn bản việc biểu diễn văn bản là một bước tiền xử lý rất quan trọng. Mô hình biểu diễn văn bản truyền thống như mô hình túi từ và không gian vectơ là các mô hình được sử

TÀI LIỆU LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.