tailieunhanh - Khảo sát các mô hình phân loại văn bản tiếng Việt

Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản, trong đó có tiếng Việt, nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản. | Tạp chí Khoa học và Công nghệ Số 57 2022 KHẢO SÁT CÁC MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT NGUYỄN CHÍ HIẾU Khoa Công nghệ Thông tin Trường Đại học Công nghiệp Thành phố Hồ Chí Minh nguyenchihieu@ DOIs https Tóm tắt Phân loại văn bản là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ tự nhiên được ứng dụng rộng rãi trong phân tích tình cảm phát hiện spam gắn nhãn chủ đề phát hiện ý định. Với sự bùng nổ của các nguồn thông tin trên Web mạng xã hội làm cho nó ngày càng trở nên quan trọng và thu hút nhiều nhà nghiên cứu. Nhiều phương pháp lựa chọn đặc trưng và thuật toán phân loại đã được đề xuất sử dụng. Tuy nhiên sự gia tăng nhanh chóng của dữ liệu lớn đang tạo ra thách thức đối với việc phân loại văn bản nói chung và tiếng Việt nói riêng chẳng hạn như vấn đề mở rộng ứng dụng khả năng phân loại các vấn đề xã hội. Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản trong đó có tiếng Việt nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản. Từ khóa Phân loại văn bản tiếng Việt học có giám sát học bán giám sát 1. GIỚI THIỆU Phân loại văn bản Text Classification là một kỹ thuật máy học Machine Learning tự động gán các nhãn tags hoặc danh mục categories cho văn bản. Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên NLP Natural Language Processing và máy học bộ phân loại văn bản có thể phân tích và sắp xếp văn bản theo danh mục chủ đề và ý định của khách hàng nhanh hơn và chính xác hơn con người. Với dữ liệu đổ về từ nhiều nguồn khác nhau bao gồm email chát web phương tiện truyền thông xã hội đánh giá trực tuyến phiếu hỗ trợ phản hồi khảo sát Nếu làm thủ công con người khó theo kịp được yêu cầu. Chỉ riêng trên Facebook Messenger 20 tỷ tin nhắn được trao đổi giữa doanh nghiệp và người dùng hàng tháng 1 . Để giải quyết vấn đề này các kỹ thuật của trí tuệ nhân tạo đã được áp dụng cụ thể là các kỹ thuật máy .

TỪ KHÓA LIÊN QUAN