Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Statistical Machine Translation with Word- and Sentence-Aligned Parallel Corpora"
tailieunhanh - Báo cáo khoa học: "Statistical Machine Translation with Word- and Sentence-Aligned Parallel Corpora"
The parameters of statistical translation models are typically estimated from sentence-aligned parallel corpora. We show that significant improvements in the alignment and translation quality of such models can be achieved by additionally including wordaligned data during training. Incorporating wordlevel alignments into the parameter estimation of the IBM models reduces alignment error rate and increases the Bleu score when compared to training the same models only on sentence-aligned data. . | Statistical Machine Translation with Word- and Sentence-Aligned Parallel Corpora Chris Callison-Burch David Talbot Miles Osborne School on Informatics University of Edinburgh 2 Buccleuch Place Edinburgh EH8 9LW callison-burch@ Abstract The parameters of statistical translation models are typically estimated from sentence-aligned parallel corpora. We show that significant improvements in the alignment and translation quality of such models can be achieved by additionally including word-aligned data during training. Incorporating wordlevel alignments into the parameter estimation of the IBM models reduces alignment error rate and increases the Bleu score when compared to training the same models only on sentence-aligned data. On the Verbmobil data set we attain a 38 reduction in the alignment error rate and a higher Bleu score with half as many training examples. We discuss how varying the ratio of word-aligned to sentence-aligned data affects the expected performance gain. 1 Introduction Machine translation systems based on probabilistic translation models Brown et al. 1993 are generally trained using sentence-aligned parallel corpora. For many language pairs these exist in abundant quantities. However for new domains or uncommon language pairs extensive parallel corpora are often hard to come by. Two factors could increase the performance of statistical machine translation for new language pairs and domains a reduction in the cost of creating new training data and the development of more efficient methods for exploiting existing training data. Approaches such as harvesting parallel corpora from the web Resnik and Smith 2003 address the creation of data. We take the second complementary approach. We address the problem of efficiently exploiting existing parallel corpora by adding explicit word-level alignments between a number of the sentence pairs in the training corpus. We modify the standard parameter estimation procedure for IBM Models and HMM variants .
Ðài Trang
67
8
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "N-gram-based Statistical Machine Translation versus Syntax Augmented Machine Translation: comparison and system combination"
9
95
0
Báo cáo khoa học: "A Discriminative Latent Variable Model for Statistical Machine Translation"
9
64
0
Báo cáo khoa học: "Mixing Multiple Translation Models in Statistical Machine Translation"
10
54
0
Báo cáo khoa học: "Translation Model Size Reduction for Hierarchical Phrase-based Statistical Machine Translation"
5
61
0
Báo cáo khoa học: "Translation Model Adaptation for Statistical Machine Translation with Monolingual Topic Information"
10
65
0
Báo cáo khoa học: "Name Translation in Statistical Machine Translation Learning When to Transliterate"
9
70
0
Báo cáo khoa học: "Perplexity Minimization for Translation Model Domain Adaptation in Statistical Machine Translation"
11
72
0
Báo cáo khoa học: "Improving Pronoun Translation for Statistical Machine Translation"
10
70
0
Adaptation in statistical machine translation for low resource domains in English-Vietnamese language
11
56
2
Dependency-based Pre-ordering For English-Vietnamese Statistical Machine Translation
14
84
2
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
461867
55
Giới thiệu :Lập trình mã nguồn mở
14
22642
59
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10892
529
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10066
446
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9519
104
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8281
1125
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8238
423
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7864
2220
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
6686
253
Vật lý hạt cơ bản (1)
29
5770
85
TỪ KHÓA LIÊN QUAN
Báo cáo khoa học
Statistical Machine Translation
Word and Sentence Aligned Parallel Corpora
Chris Callison Burch David Talbot Miles Osborne
báo cáo khoa học
mô hình ngôn ngữ
xử lý ngôn ngữ tự nhiên
N gram based Statistical
Machine Translation versus Syntax Augmented Machine Translation
comparison and system combination
scientific reports
model language
process natural language
A Discriminative Latent Variable Model
A Discriminative Latent Variable Model for Statistical Machine Translation
báo cáo ngôn ngữ
Mixing Multiple Translation Models
SMT
ngôn ngữ tự nhiên
Translation Model Size Reduction
Hierarchical Phrase based
Translation Model Adaptation
Monolingual Topic Information
Name Translation
Learning When to Transliterate
Perplexity Minimization
Translation Model Domain Adaptation
Improving Pronoun Translation
Liane Guillou
Machine translation
Domain adaptation
The English Vietnamese language pair
Low resource domains
Khoa học máy tính
Tạp chí khoa học
Natural Language Processing
Phrase based Statistical Machine Translation
An Open Source Toolkit
Tree Forest Based Statistical Machine Translation
Xianchao Wu
A Ranking based Approach
Word Reordering
Nan Yang†
Mu Li
Private Access
Phrase Tables
Fast and Scalable Decoding
Language Model Look Ahead
A Comparative Study
Target Dependency Structures
Enhancing Statistical Machine Translation
Character Alignment
Ning Xi
Post ordering by Parsing
Japanese English Statistical Machine Translation
Isao Goto Masao Utiyama
Modified Distortion Matrices
Arianna Bisazza and Marcello Federico
Syntax to Morphology Mapping in Factored
Phrase Based Statistical Machine Translation from English to Turkish
Reyyan Yeniterzi
Error Detection
Linguistic Features
Improving Statistical Machine Translation
Monolingual Collocation
Zhanyi Liu
Bilingual Sense Similarity
Boxing Chen
George Foster and Roland Kuhn
Bucking the Trend
Large Scale Cost Focused Active Learning
Paraphrase Lattice
Takashi Onishi and Masao Utiyama
Filtering Syntactic Constraints
Hailong Cao and Eiichiro Sumita
TÀI LIỆU MỚI ĐĂNG
Sáng tạo trong thuật toán và lập trình với ngôn ngữ Pascal và C# Tập 2 - Chương 4
47
246
1
27-04-2024
MÔN HỌC VẬT LIỆU VÀ CÔNG NGHỆ KIM LOẠI - PHẦN I: KIM LOẠI HỌC
32
176
2
27-04-2024
Giáo trình CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT - Chương 1
5
126
0
27-04-2024
Diseases of the Liver and Biliary System - part 1
33
124
0
27-04-2024
Bài Tiểu Luận Chuyên Đề Tổ Chức Hoạt Động Nhận Thức Trong Dạy Học Vật Lý " Định Luật Ôm Cho Các Loại Đoạn Mạch Chứa Nguồn Điện"
10
150
3
27-04-2024
Chương 10: Các phương pháp tính quá trình quá độ trong mạch điện tuyến tính
57
178
4
27-04-2024
Color Atlas of Ophthamology
165
86
0
27-04-2024
báo cáo hóa học:" Perceptions of rewards among volunteer caregivers of people living with AIDS working in faith-based organizations in South Africa: a qualitative study"
10
82
0
27-04-2024
BÀI GIẢNG Biến Đổi Năng Lượng Điện Cơ - TS. Hồ Phạm Huy
137
92
0
27-04-2024
GIÁO TRÌNH LÝ THUYẾT & BÀI TẬP KỸ THUẬT SỐ
163
101
1
27-04-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
7864
2220
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
5735
1368
Ebook Chào con ba mẹ đã sẵn sàng
112
3767
1231
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
5319
1136
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8281
1125
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3499
643
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
10892
529
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3684
525
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4046
515
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4128
480
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.