tailieunhanh - Báo cáo đồ án thực tập tốt nghiệp: Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở Tesseract OCR

Báo cáo đồ án thực tập tốt nghiệp với đề tài "Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở tesseract OCR" được thực hiện nhằm mục đích tìm hiểu, chỉnh sửa công cụ Tesseract để thực hiện việc rút trích các văn bản từ tập tin hình ảnh. Kết cấu của luận văn gồm 3 chương và Kết luận, cụ thể: Chương 1 - Tổng quan về đề tài, chương 2 - Tìm hiểu hệ thống mã nguồn mở Tesseract OCR, chương 3 - Xây dựng chương trình nhận dạng văn bản tiếng Việt sử dụng thư viện Tesseract OCR. | TẬP ĐOÀN ĐIỆN LỰC VIỆT NAM TRƯỜNG ĐẠI HỌC ĐIỆN Lực KHOA CÔNG NGHỆ THÔNG TIN EVNEPƠ ĐẠI HOC ĐIỆN LỰC BÁO CÁO ĐỒ ÁN THỰC TẬP TỐT NGHIỆP XÂY DỰNG phần mềm nhận dạng ký tự QUANG HỌC SỬ DỤNG MÃ NGUỒN MỞ TESSERACT OCR Giảng viên hướng dẫn TS. NGUYỄN THỊ THANH TÂN Sinh viên thực hiện NGUYỄN ĐÌNH NGỌC Ngành CÔNG NGHỆ THÔNG TIN Chuyên ngành CÔNG NGHỆ PHẦN MỀM Lớp D6 - CNTT Khóa 2011 - 2016 Hà Nội tháng 10 năm 2015. LỜI MỞ ĐẦU Hiện nay nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càng phát triển bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học Optical Character Recognition hay còn được gọi tắt là OCR. Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính. Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như Các bài viết trên tạp chí tờ rơi hoặc một tập tin PDF hình ảnh. Rõ ràng chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có thể chỉnh sửa ví dụ như trình soạn thảo Microsoft Word . Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu. Để giải nén và sử dụng lại dữ liệu từ tài liệu được quét hình ảnh máy ảnh hoặc hình ảnh của các tập tin PDF chúng ta cần một phần mềm OCR. Nó sẽ xuất ra kí tự trên hình ảnh ghép chúng thành từ và sau đó ghép các từ thành câu. Nhờ vậy chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc. Tương tự những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền. Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp. Bài báo cáo nhằm mục đích tìm hiểu chỉnh sửa công cụ Tesseract để thực hiện việc rút trích các văn bản từ tập tin hình ảnh. Tên đề tài Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở Tesseract Ocr . CẤU TRÚC ĐỀ TÀI Chương 1 Tổng quan về đề tài Quy trình .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN