tailieunhanh - Thuật toán nhận dạng (phân loại) các ngôn ngữ tự nhiên

Báo cáo này giới thiệu một phương pháp nhận dạng (phân lớp) các ngôn ngữ tự nhiên dựa trên các đặc trưng riêng của chúng. Trong bài báo, tác giả sử dụng mô hình chuỗi Markov hữu hạn cùng với các phương pháp thống kê toán học như: ước lượng các tham số và kỹ thuật kiểm định các giả thiết thống kê làm công cụ để giải bài toán. | Một số vẩn đề chọn lọc của Công nghệ thông tin Đà Nang 18-20 tháng 8 năm 2004 THUẬT TOÁN NHẬN DẠNG PHÂN LOẠI CÁC NGÔN NGỮ Tự NHIÊN Hồ Văn Canh Phạm Quốc Doanh Cục kỹ thuật nghiệp vụ I - Bộ Công An Tóm tắt Báo cảo này giới thiệu một phương pháp nhận dạng phán lớp các ngôn ngữ tự nhiên dựa trên các đặc trưng riêng cùa chúng. Trong bài báo tác giả sử dụng mô hình chuỗi Markòv hữu hạn cùng với các phương pháp thống kê toán học như ước lượng các tham sổ và kỹ thuật kiếm định các giá thiết thong kê làm công cụ đê giải bài toán. Abstract This paper introduces a method of pattern recognition of natural languages based on parametric charaters of these languages. In this paper the model of finite Markov chain and methods of mathematic statistic estimation and statistic hypothesis test are appliedfor our problem. 1. MỞĐẰƯ Kỹ thuật nhận dạngJiiệnjjãy-đang được nhiều người quan tâm bởi đây là một ngành khoa học có rất nhiều ứng dụng trọng khoa học kỹ thuật KHKT tin học sinh học và cà trong lĩnh vực An ninh Quốc gia. Nó là một bộ phận quán trọng trong các hệ thống thông minh được sử dụng trong việc dò tìm xử lý số liệu và hỗ trợ ra quyết định . Nói một cách tổng quát thì nhận dạng là một bộ môn khoa học có liên quan một cách hữu cơ đến việc phân lóp tính toán các độ đo. Có hai phương pháp truyền thống chủ yếu để nghiên cứu nhận dạng là phương pháp Thống kê toán học và Cú pháp hoặc cấu trúc . Hiện nay có một cách tiếp cận mới đó là sử dụng mạng Neural. Trong phạm vi bài báo này tác giả chì đề cập đến việc ứng dụng phưong pháp thống kê toán học để giải quyết bài toán nhận dạng các ngôn ngữ tự nhiên. Ý tưỏng của phưong pháp là để nhận dạng được một ngôn ngữ tự nhiên thì trước hết càn phải toán học hoá ngôn ngữ đó như là một chuỗi Markov hữu hạn trạng thái sau đó dựa vào các tiêu chuẩn thống kê toán học trên các đặc trưng cùa nó để phân lớp. 2. DẠNG TỔNG QUÁT CỦA BÀI TOÁN Giả sử ta có một tập hữu. hạn X x1 X2 . xn các đối tượng mỗi đối tượng x được đặc trưng bởi m tham số nào đó như

TỪ KHÓA LIÊN QUAN