tailieunhanh - Tạp chí khoa học và công nghệ: Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản

Trong bài báo này giới thiệu những nghiên cứu về mã nguồn mở Lucene và chỉ ra cách thức ứng dụng nó trong hệ thống tìm kiếm. Lucene là dự án mã nguồn mở được cung cấp và quản lý bởi tổ chức Apache Software Foundation, đây là công cụ lập chỉ mục cho văn bản, sử dụng trong hệ thống tìm kiếm. | TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 4 39 .2010 NGHIÊN CỨU ỨNG DỤNG MÃ NGUỒN MỞ LUCENE ĐỂ XÂY DỰNG PHẦN MỀM TÌM KIẾM THÔNG TIN TRÊN VĂN BẢN A CASE STUDY ON USING OPEN SOURCE LUCENE TO BUILD THE FULL TEXT SEARCH ENGINE Huỳnh Đức Việt Trung tâm Công nghệ Phần mềm Trường Đại học Duy Tân Võ Duy Thanh Trường Cao đắng Công nghệ Thông tin Hữu nghị Việt - Hàn Võ Trung Hùng Trường Đại học Bách khoa Đại học Đà Nang TÓM TẮT Trong bài báo này chúng tôi giới thiệu những nghiên cứu về mã nguồn mở Lucene và chỉ ra cách thức ứng dụng nó trong hệ thống tìm kiếm. Lucene là dự án mã nguồn mở được cung cấp và quản lý bởi tổ chức Apache Software Foundation đây là công cụ lập chỉ mục cho văn bản sử dụng trong hệ thống tìm kiếm. Lucene cho phép xử lý các văn bản đầu vào ở dạng văn bản text để tạo ra tập chỉ mục và cung cấp phương thức tìm kiếm trên tập chỉ mục đó. Nó cũng cho phép người dùng kế thừa và phát triển để phù hợp với nhiều ngôn ngữ khác nhau. Chúng tôi đề xuất mô hình ứng dụng Lucene để phát triển hệ thống tìm kiếm trên các văn bản lưu trữ. Trong mô hình này chúng tôi sử dụng mã nguồn của Lucene và xây dựng một số xử lý cho ngôn ngữ tiếng Việt. Đầu tiên chúng tôi tiến hành tách nội dung của các loại văn bản sau đó thực hiện một số xử lý cho tiếng Việt và lập chỉ mục cho các văn bản cuối cùng chúng tôi xây dựng các ứng dụng tìm kiếm sử dụng tập chỉ mục này để truy vấn và lấy về tài liệu liên quan. ABSTRACT In this paper we introduce our research on open- source Lucene and how to apply it to a search engine. Lucene is the open source project which is supplied and managed by Apache Foundation Organization. This is a tool applied to create an index for the text used in search engine. Lucene helps to process on input documents for plain text to create an index and supply search mode based on this index. It also helps users inherit and develop in appropriation to different languages. We propose applied Lucene to develop a search engine on stored documents. In this .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN