tailieunhanh - So sánh văn bản dựa trên mô hình véc-tơ

Trong bài báo này, chúng tôi trình bày các kết quả nghiên cứu liên quan đến việc so sánh mức độ giống nhau của hai văn bản. Việc so sánh này phục vụ mục đích xác định mức độ giống nhau của một văn bản này với một văn bản khác. Phương pháp nghiên cứu nhằm đề xuất là chuyển các văn bản thành các véc-tơ. Mỗi phần tử của véc-tơ là trọng số tương ứng với từ chỉ mục xuất hiện trong văn bản. Việc so sánh mức độ giống nhau của hai văn bản được chuyển về tính góc tạo bởi hai véc-tơ. Góc này đặc trưng cho mức độ giống/khác nhau giữa hai văn bản. | ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 105 SO SÁNH VĂN BẢN DỰA TRÊN MÔ HÌNH VÉC-TƠ COMPARISON OF THE DOCUMENTS BASED ON VECTOR MODEL Võ Trung Hùng1, Nguyễn Thị Ngọc Anh1, Hồ Phan Hiếu1, Nguyễn Ngọc Huyền Trân2, Võ Duy Thanh2 1 Đại học Đà Nẵng; vthung@, ntnanh@, hophanhieu@ 2 Trường Cao đẳng CNTT Hữu nghị Việt - Hàn; nguyenngochuyentran84@, thanhvd59@ Tóm tắt - Trong bài báo này, chúng tôi trình bày các kết quả nghiên cứu liên quan đến việc so sánh mức độ giống nhau của hai văn bản. Việc so sánh này phục vụ mục đích xác định mức độ giống nhau của một văn bản này với một văn bản khác. Phương pháp của chúng tôi đề xuất là chuyển các văn bản thành các véc-tơ. Mỗi phần tử của véc-tơ là trọng số tương ứng với từ chỉ mục xuất hiện trong văn bản. Việc so sánh mức độ giống nhau của hai văn bản được chuyển về tính góc tạo bởi hai véc-tơ. Góc này đặc trưng cho mức độ giống/khác nhau giữa hai văn bản. Chúng tôi đã phát triển công cụ phục vụ so sánh hai văn bản hoặc một văn bản với một tập n văn bản cho trước. Kết quả đạt được phản ánh đúng mức độ giống/khác nhau và đáp ứng mục tiêu đặt ra. Abstract - In this paper, we present the result of the study related to the comparability of two documents. This comparison aims to determine the similarity of a text/document with an other one. Our method is converting a document into a vector. Each element of vector is a weight corresponding to the index term that appears in the text. The similarity comparison of the two texts are transformed into angles created by two vectors. This angle represents the similarity/difference between the two documents. We have developed a tool that compares a document with two or a set of documents. The results reflect exactly the similarity/difference and the achievement of the objectives. Từ khóa - mô hình véc-tơ; so sánh văn bản; phát hiện sao chép; độ đo; véc-tơ hóa Key words - vector model; document .

TỪ KHÓA LIÊN QUAN