Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Multilingual Lexical Database Generation from parallel texts in 20 European languages"
Đang chuẩn bị liên kết để tải về tài liệu:
Báo cáo khoa học: "Multilingual Lexical Database Generation from parallel texts in 20 European languages"
Giang Sơn
75
8
pdf
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
This paper deals with multilingual database generation from parallel corpora. The idea is to contribute to the enrichment of lexical databases for languages with few linguistic resources. Our approach is endogenous: it relies on the raw texts only, it does not require external linguistic resources such as stemmers or taggers. The system produces alignments for the 20 European languages of the ‘Acquis Communautaire’ Corpus. | Multilingual Lexical Database Generation from parallel texts in 20 European languages with endogenous resources GIGUET EMMANUEL GREYC CNRS UMR 6072 Université de Caen 14032 Caen Cedex - France giguet@info.unicaen.fr LUQUET Pierre-Sylvain GREYC CNRS UmR 6072 Université de Caen 14032 Caen Cedex - France psluquet@info.unicaen.fr Abstract This paper deals with multilingual database generation from parallel corpora. The idea is to contribute to the enrichment of lexical databases for languages with few linguistic resources. Our approach is endogenous it relies on the raw texts only it does not require external linguistic resources such as stemmers or taggers. The system produces alignments for the 20 European languages of the Acquis Communautaire Corpus. 1 Introduction 1.1 Automatic processing of bilingual and multilingual corpora Processing bilingual and multilingual corpora constitutes a major area of investigation in natural language processing. The linguistic and translational information that is available make them a valuable resource for translators lexicographers as well as terminologists. They constitute the nucleus of example-based machine translation and translation memory systems. Another field of interest is the constitution of multilingual lexical databases such as the project planned by the European Commission s Joint Research Centre JRC or the more established Papillon project. Multilingual lexical databases are databases for structured lexical data which can be used either by humans e.g. to define their own dictionaries or by natural language processing NLP applications. Parallel corpora are freely available for research purposes and their increasing size demands the exploration of automatic methods. The Acquis Communautaire AC Corpus is such a corpus. Many research teams are involved in the JRC project for the enrichment of a multilingual lexical database. The aim of the project is to reach an automatic extraction of lexical tuples from the AC Corpus. .
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "Personalized Normalization for a Multilingual Chat System"
Báo cáo khoa học: "Multilingual WSD with Just a Few Lines of Code: the BabelNet API"
Báo cáo khoa học: "A Large Multilingual Lexical Knowledge Base"
Báo cáo khoa học: "Selective Sharing for Multilingual Dependency Parsing"
Báo cáo khoa học: "Multilingual Named Entity Recognition using Parallel Data and Metadata from Wikipedia"
Báo cáo khoa học: "Multilingual Subjectivity and Sentiment Analysis"
Báo cáo khoa học: "BabelNet: Building a Very Large Multilingual Semantic Network"
Báo cáo khoa học: "A new Approach to Improving Multilingual Summarization using a Genetic Algorithm"
Báo cáo khoa học: "Multilingual Pseudo-Relevance Feedback: Performance Study of Assisting Languages"
Báo cáo khoa học: "Combining Orthogonal Monolingual and Multilingual Sources of Evidence for All Words WSD"
crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.