tailieunhanh - LUẬN VĂN:KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB

Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên, như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương (song ngữ). | ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG nGhỆ Nguyễn Văn Vinh KHAI PHÁ DỮ liệu song ngữ từ WEB KHOÁ LUẬN TỐT nghiệp đại học hệ chính quy Ngành Công Nghệ Thông Tin Cán bộ hướng dẫn Lê Anh Cường HÀ NỘI - 2009 Tóm tăt Cơ sở dữ liệu song ngữ bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên như dịch máy thống kê xây dựng từ điển song ngữ tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương song ngữ với chất lượng cao sẽ tạo nên một cơ sở dữ liệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau. Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sở dữ liệu song ngữ Anh-Việt từ World Wide Web WWW cụ thể là trên các trang web song ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm ra hai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khác nhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin hay tri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản đoạn câu và từ . Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản. Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ mà luận văn khai thác là tiếng Anh và tiếng Việt chúng tôi tìm hiểu các công nghệ trong các nghiên cứu hiện tại xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trong thực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung thông thường là dựa trên đối sánh các cặp từ là bản dịch của nhau - từ điển song ngữ hoặc là dựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này chúng tôi theo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khác nhau như độ tương đồng cấu trúc thẻ của văn bản độ tương đồng cấu trúc

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN