Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Công Nghệ Thông Tin
Cơ sở dữ liệu
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản
tailieunhanh - Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản
Bài viết Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản đề xuất cải tiến đánh giá độ tương tự giữa hai văn bản tiếng Việt và ứng dụng trong hệ thống tra cứu văn bản. | Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN 978-604-82-2981-8 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ VÀ ỨNG DỤNG TRONG TRA CỨU VĂN BẢN Nguyễn Tu Trung Trường Đại học Thủy lợi email trungnt@ 1. GIỚI THIỆU CHUNG hiện kiểm tra một bài báo điện tử được thu thập về xem có giống gần giống với các bài Trùng lặp nội dung văn bản là hiện tượng phổ biến trong đời sống. Vì nhiều nguyên đã được thu thập trước đó hay không. nhân các văn bản thường bị sao chép trích . Độ đo tương tự dẫn. Đối với các hệ thống lưu trữ tài liệu việc lưu các văn bản có độ trùng lặp cao chỉ gây lãng phí và tốn tài nguyên. Với các máy tìm kiếm khi thu thập dữ liệu từ Internet nếu đánh giá tốt độ trùng lặp của dữ liệu mới so với các tài liệu có trong kho dữ liệu sẽ tránh được việc tiếp tục tải thêm và lưu trữ một dữ liệu mới trùng lặp vào kho dữ liệu. Phát hiện trùng lặp là bài toán phức tạp vì các văn bản thường không bị sao chép toàn Hình 1. Mô hình không gian vector phần mà chỉ một phần có thể ít có thể nhiều. cho văn bản 4 . Các phần bị sao chép có thể bị thay đổi và Văn bản thường được biểu diễn dưới dạng nằm ở vị trí khác nhau trong văn sao chép. vector dựa theo mô hình tần suất 4 mà tiêu Trong 1 Muneer và cộng sự đã đề xuất biểu là các phương pháp dựa trên tần số TF và thuật toán cho việc thiết lập các cụm trang nghịch đảo tần số IDF . Hình 2 là ví dụ trong web trùng lặp. Ngoài ra Fresno và cộng sự trường hợp biểu diễn văn bản với số Token là đã đề xuất hàm trọng số FCC là hệ mờ cho 2. Về mặt tổng quát số Token rất nhiều ví dụ việc gán các trọng số đặc trưng và sự kết hợp Tổng số âm tiết nếu dùng đặc trưng âm tiết của chúng 2 . Hiện nay trong nước cũng đã Tổng số từ nếu dùng đặc trưng từ . có một số công trình nghiên cứu về việc phát Có một số độ đo được sử dụng như hiện nội dung trùng lặp trong kho văn bản độ tương tự cosine cosine similarity hệ tiếng Việt 3 5 các nghiên cứu cho thấy số Jaccard Jaccard coeficient khoảng cách việc kết hợp các tiêu
Hữu Canh
40
3
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Bài giảng SEO – Search Engine Optimization: Trùng lặp nội dung
14
76
2
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ
10
49
2
Trang kiểu mẫu: Xử lý các vấn đề về trùng lặp nội dung
4
57
0
Bài giảng Nguyên tắc vàng của SEO - Trùng lặp nội dung
14
63
0
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản
3
25
1
Tìm kiếm video bài giảng dạng slide dựa vào nội dung
9
93
1
Ứng dụng và cải tiến hệ số tương đồng Cosine trong xây dựng và quản lý ngân hàng câu hỏi trắc nghiệm
8
67
2
Canonical - Khắc phục lỗi trùng lặp nội dung trong SEO
6
58
1
Ý kiến của Google về trùng lặp nội dung
5
43
0
SEO – Search Engine Optimization : TRÙNG LẶP NỘI DUNG
14
51
0
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
461879
55
Giới thiệu :Lập trình mã nguồn mở
14
22701
61
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10902
530
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10075
446
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9539
104
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8298
1126
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8245
423
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7867
2220
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
6703
253
Vật lý hạt cơ bản (1)
29
5780
85
TỪ KHÓA LIÊN QUAN
Cơ sở dữ liệu
Trùng lặp nội dung văn bản
Tra cứu văn bản
Phương pháp nghịch đảo tần số
Thuật toán phân cụm dữ liệu
Phân cụm kho văn bản
Đánh giá độ trùng lặp văn bản
Trọng số mờ
Vấn đề tác quyền
Đạo nhái tác phẩm
Tìm và loại bỏ file trùng lặp
thủ thuật windows
công nghệ thông tin
tin học căn bản
tin học văn phòng
tìm file trùng lắp nội dung
Tìm kiếm video dựa trên nội dung
Nhận dạng kí tự quang học
Trùng lặp văn bản
Sửa lỗi chính tả
Lập chỉ mục tài liệu
Phát hiện trùng lặp nội dung
Đương đồng văn bản
Hệ số tương đồng Cosine
Hệ số tương đồng Cosine có trọng số
Ngân hàng câu hỏi
TÀI LIỆU MỚI ĐĂNG
Báo cáo nghiên cứu khoa học " KẾT QUẢ NGHIÊN CỨU BƯỚC ĐẦU VỀ THIÊN ĐỊCH CHÂN KHỚP TRÊN CÂY THANH TRÀ Ở THỪA THIÊN HUẾ "
7
175
0
30-04-2024
Đề tài: Tìm hiểu một số yêu cầu đặt ra với một phòng thu âm, để đảm bảo chất lượng âm thanh trong sản phẩm đa phương tiện
8
161
1
30-04-2024
QUẢN LÝ CHẤT LƯỢNG KHÔNG KHÍ
75
138
0
30-04-2024
Data Structures and Algorithms - Chapter 9: Hashing
54
114
0
30-04-2024
Truyện kiếm hiệp - Duy ngã độc tôn phần 5/7
1
94
0
30-04-2024
báo cáo hóa học:" Increased androgen receptor expression in serous carcinoma of the ovary is associated with an improved survival"
6
100
0
30-04-2024
Báo cáo khoa học: " Principaux critères économiques de gestion des forêts : analyse critique et comparative"
29
89
0
30-04-2024
Kiến thức vượt qua kì thi quốc gia 11
6
99
0
30-04-2024
Microsoft SQL Server 2012 T-SQL Fundamentals
442
93
0
30-04-2024
The Committee on the Elimination of All Forms of Discrimination against Women (CEDAW)
9
95
0
30-04-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7867
2220
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
5775
1386
Ebook Chào con ba mẹ đã sẵn sàng
112
3772
1232
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
5331
1136
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8298
1126
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3515
644
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10902
530
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3692
525
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4070
516
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4135
480
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.