tailieunhanh - Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3

Lời cảm ơn Chúng em xin chân thành cảm ơn Ban giám hiệu, quý Thầy Cô của trường Đại học Khoa Học Tự Nhiên Chí Minh, đặc biệt là các Thầy Cô trong khoa Công Nghệ Thông Tin đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết trong suốt những năm học tập tại trường. | CHƯƠNG 4. MÔ HÌNH . TIỀNXỬLÝ Thanh hỏi được biểu diễn bằng ký tự 3 . Thanh ngã được biểu diễn bằng ký tự 4 . Thanh nặng được biểu diễn bằng ký tự 5 . Theo quy tắc trên hoà sẽ được biến đổi thành 2hoa hòa sẽ được biến đổi thành 2hoa . Như vậy ta có thể coi hòa và hoà là tương đương nhau khi so sánh dạng biến đổi 2hoa của chúng. Một số ví dụ khác hồng được biến đổi thành 2hông hoa được biến đổi thành 0hoa . Các tiếng nưốc ngoài các ký hiệu . không có dấu sẽ được xem như có thanh ngang. Như vậy USA sẽ được biến đổi thành 0USA . Do việc biến đổi làm mất thông tin về cách bỏ dấu. Ta cần phải giữ lại chữ gốc bên cạnh chữ biến đổi chữ chuẩn hoá để có thể dùng lại sau này. Ta cũng có thể phục hồi chữ từ chữ chuẩn hoá bằng cách phân tích cấu trúc âm tiết và bỏ dấu thích hợp theo quy tắc bỏ dấu cho trưốc. Việc này sẽ giúp chuẩn hoá cách bỏ dấu cho toàn văn bản. .- . . Ngoài việc chuẩn hoá cách bỏ dấu một số chữ trong tiếng Việt kết thúc bằng y có thể được đổi thành i . Ví dụ quý và quí đều hợp lệ. Tuy nhiên không phải chữ nào kết thúc bằng y cũng có thể chuyển thành i ví dụ thuý và thúi . Nguyên nhân là do khi chuyển thành i chữ cái này kết hợp vối u tạo ra âm chính ui thay vì âm chính i . Một số chữ kết thúc bằng i cũng không thể chuyển sang y ví dụ bí chí . Việc cho phép viết một từ ở hai cách sẽ làm giảm hiệu suất của chương trình do chương trình coi quý và quí là hai chữ hoàn toàn khác nhau. Giải pháp là lập danh sách những từ có âm chính là y i và là âm tiết mở sau đó chuyển tất cả những từ kết thúc bằng i có trong danh sách trên sang y . Trong quá trình 86 CHƯƠNG 4. MÔ HÌNH . TIEN XỬ LÝ bắt lỗi chính tả nếu người dùng yêu cầu chuẩn hoá thì ta có thể xem việc viết y hoặc i như là sai chính tả. Nếu không ta sẽ bỏ qua khác biệt y và i ở bưốc báo lỗi chính tả. Gồm các chữ sau không xét thanh điệu mi ti thi qui ki hi li si vi . Chữ viết hoa Chữ viết hoa dùng để biểu diễn tên riêng từ viết tắt hoặc dùng cho chữ đứng đầu câu. Do đó cần phân biệt chữ đầu câu có .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN