tailieunhanh - Ứng dụng các kỹ thuật phân lớp dữ liệu cho bài toán khai thác dữ liệu tiếng dân tộc thiểu số phục vụ xử lý ngôn ngữ tự nhiên

Nghiên cứu đã trình bày những nét chính về mặt ý tưởng, giải thuật; ưu, nhược điểm của một số giải thuật phân lớp dữ liệu được sử dụng phổ biến trong xử lý tiếng Việt như SVM, cây quyết định, giải thuật Bayes. | Đinh Thị Mỹ Hạnh 237 Ứng dụng các kỹ thuật phân lớp dữ liệu cho bài toán khai thác dữ liệu tiếng dân tộc thiểu số phục vụ xử lý ngôn ngữ tự nhiên Đinh Thị Mỹ Hạnh Đại học Đà Nẵng 41 Lê Duẩn Hải Châu Đà Nẵng dtmhanh@ Tóm tắt. Nghiên cứu này phân tích vai trò thực trạng của kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên XLNNTN xử lý tiếng Việt XLTV nói chung và tiếng dân tộc thiểu số DTTS nói riêng. Trên cơ sở mô hình tổng quan của bài toán XLNNTN tác giả tập trung nghiên cứu bài toán phân lớp dữ liệu. Nghiên cứu đã trình bày những nét chính về mặt ý tưởng giải thuật ưu nhược điểm của một số giải thuật phân lớp dữ liệu được sử dụng phổ biến trong xử lý tiếng Việt như SVM cây quyết định giải thuật Bayes Tuy nhiên đối với việc xử lý tiếng DTTS thì còn hạn chế do nhiều nguyên nhân khác nhau. Tác giả lựa chọn giải thuật SVM để phân lớp văn bản tiếng DTTS trên tập dữ liệu thử nghiệm từ đó đánh giá hiệu quả thực hiện và đưa ra những đề xuất liên quan đến bài toán phân lớp dữ liệu trên văn bản tiếng DTTS. Từ khóa tiếng dân tộc thiểu số phân lớp văn bản SVM kho ngữ liệu xử lý tiếng Việt. 1 Đặt vấn đề Trong bối cảnh Công nghệ Thông tin CNTT ngày càng phát triển mạnh mẽ và có ảnh hưởng trong hầu hết các mặt của đời sống xã hội việc ứng dụng CNTT vào các vấn đề của XLNNTN nói chung XLTV nói riêng trong đó có tiếng DTTS đã và đang nhận được sự quan tâm từ các chuyên gia cũng như xã hội. Tuy nhiên do nhiều nguyên nhân khác nhau mà việc xử lý tiếng DTTS nói chung và xử lý văn bản tiếng DTTS nói riêng còn rất nhiều hạn chế chưa có nhiều giải thuật được triển khai trên các ngôn ngữ này. Đây cũng là một trong những nguyên nhân khiến cho lĩnh vực xử lý khai thác tiếng DTTS chưa đạt được nhiều kết quả như kỳ vọng. Hiện nay dù đã có một số kho ngữ liệu chung của một vài tiếng DTTS phổ biến trong đó chủ yếu là từ điển tiếng Việt - tiếng DTTS nhưng chưa có nhiều các từ điển dành cho lĩnh vực hẹp. Điều này gây khó khăn cho việc nghiên cứu và phát triển các hệ thống dịch tự động .

crossorigin="anonymous">
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.