tailieunhanh - Truy vấn thông tin trên văn bản pháp luật

Với sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do con người tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong kho tài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng. | TRUY VẤN THÔNG TIN TRÊN VĂN BẢN PHÁP LUẬT Phan Hải Đăng Dương Thanh Toàn Viện Công nghệ Việt Nhật VJIT Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD TS. Lê Thị Ngọc Thơ TÓM TẮT Với sự phát triển không ngừng của công nghệ thông tin số lượng tài liệu điện tử do con người tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong kho tài liệu là rất lớn đây là trong những nhu cầu thường ngày thiết thực của người sử dụng. Tuy nhiên một trong những khó khăn mà con người gặp phải trong việc khai thác thông tin là Khả năng tìm kiếm chính xác thông tin cần tìm trong kho tài liệu khả năng tìm kiếm nhanh với lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để tìm kiếm dữ liệu thì sẽ gặp phải các hạn chế như Bị giới hạn cú pháp của ngôn ngữ SQL tốc độ tìm kiếm chậm khi tìm kiếm gần đúng dùng LIKE trong cơ sở dữ liệu. Qua tìm hiểu thì chúng tôi thấy trang truy vấn thông tin pháp luật như là trang website có thể khai thác được với lượng dữ liệu lớn và mỗi một tài liệu thường rất dài và có sự trùng lắp về mặt ngôn ngữ là rất đó gây ảnh hướng đến việc tìm kiếm của người sử dụng. Vì lí do trên chúng tôi mong muốn phát triển và cải thiện khả năng tìm kiếm thông tin trên văn bản pháp luật. Từ khóa Apache Lucene Elasticsearch indexing thu thập dữ liệu vnTokenizer. ABSTRACT With the continuous development of information technology the number of electronic documents created by human is increasingly rich and diverse. The demand for this data exploitation in the document warehouse is huge this is in the daily necessities practical users. However one of the difficulties that we encounter in the exploitation of information is the ability to search for accurate information to look for in document repositories search capabilities with large amounts of data quickly. If you use relational database management systems to search data you will encounter limitations such as Limited SQL language syntax slow search speed when searching