tailieunhanh - LUẬN VĂN:XÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT

Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữ như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ. Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn | Mô hình ngôn ngữ Ngram - Cao Văn Việt K51KHMT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Cao Văn Việt XÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành Khoa học máy tính HÀ NỘI - 2010 LỜI CẢM ƠN Đầu tiên cho phép tôi gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường người đã trực tiếp hướng dẫn chỉ bảo và tạo điều kiện cho tôi trong quá trình hoàn thành luận văn này. Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại học Công Nghệ đặc biệt là các thầy cô trong bộ môn Khoa học Máy tính những người đã trực tiếp giảng dạy hướng dẫn và tạo điều kiện cho tôi trong quá trình học tập và thực hành ở trường. Cuối cùng tôi xin gửi gời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủng hộ giúp đỡ tôi hoàn thành luận văn TÓM TẮT Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữ như kiểm lỗi chính tả dịch máy hay phân đoạn từ. Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựa chọn và tập trung nghiên cứu vấn đề này để có thể tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô cùng phong phú của chúng ta. Luận văn sẽ trình bày khái quát về mô hình ngôn ngữ đồng thời chỉ ra các khó khăn còn tồn tại để rồi đưa ra những phương pháp khắc phục trong đó trọng tâm nghiên cứu các phương pháp làm mịn. Trong luận văn này này chúng tôi sử dụng chủ yếu bộ công cụ mã nguồn mở SRILIM để xây dựng mô hình ngôn ngữ cho tiếng Việt sau đó áp dụng mô hình ngôn ngữ đã tạo ra để tính toán độ hỗn loạn thông tin của văn bản và dịch máy thống kê. Kết quả có được sẽ là cơ sở chính để chúng tôi chỉ ra phương pháp làm mịn nào là tốt nhất khi sử dụng trong việc xây dựng mô hình ngôn ngữ tiếng .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN