tailieunhanh - Chương 2: Tổng quan

Chương 2: Tổng quan chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình dịch máy khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp dụng cho dịch máy thống kê. | 5 CHƯƠNG 2 TỔNG QUAN Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp dụng cho dịch máy thống kê. Dịch máy thống kê Statistical Machine Translation - SMT Bài toán cơ bản mà dịch máy cần giải quyết là cho một câu f ở ngôn ngữ F phát sinh chuỗi e ở ngôn ngữ E sao cho khả năng f là bản dịch của e là cao nhất. Trong ngữ cảnh của dịch máy thống kê thì bài toán được hiểu theo cách tìm câu e sao cho hàm xác xuất P e f là cực đại 3 e argmaxe P eI . Theo định lý Bayes thì P e I 1 Trong 1 vì P f không đổi đối với mỗi câu nên e arg maxe P e I arg max P f I e P e 2 Để tính được các xác suất P f I è và P e cần 2 thông tin sau Mô hình ngôn ngữ P e mô hình sẽ gán xác suất cao hơn cho những câu e đúng ngữ pháp hơn. Xác suất này được ước lượng bằng cách sử dụng ngữ liệu đơn ngữ. Mô hình dịch P f I e câu dịch thích hợp hơn sẽ có xác suất cao hơn. Xác suất này được ước lượng bằng cách sử dụng ngữ liệu song ngữ. Tùy vào đơn vị được tính xác suất trong mô hình dịch mà SMT sẽ có ba hướng tiếp cận chính dựa trên từ word-based dựa trên ngữ phrase-based và dựa trên cú pháp syntax-based . Dịch máy thống kê dựa trên từ Word-based SMT Như đã trình bày ở trên trong hướng dịch máy thống kê dựa trên từ mô hình dịch P f I e sẽ được tính dựa vào xác suất dịch của từ hay còn gọi là gióng hàng từ dựa 6 vào ngữ liệu song ngữ. Tới đây ta thấy xuất hiện vấn đề con gà - quả trứng nếu chúng ta có sẵn các gióng hàng từ thì dễ dàng ước lượng xác suất và nếu có xác suất trước thì dễ dàng xác định gióng hàng từ. Vậy làm sao để giải quyết vấn đề này 9 Câu trả lời là dùng mô hình huấn luyện EM Expectation Maximization . Cụ thể như sau - Với một cặp câu được xem là bản dịch của nhau ta giả định một từ ở câu nguồn có khả năng gióng hàng đến tất cả các từ ở câu đích. - Mô hình sẽ học để chọn ra cặp từ nào thường .

TỪ KHÓA LIÊN QUAN
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.