Đang chuẩn bị liên kết để tải về tài liệu:
Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề
Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS). | Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN 978-604-82-5957-0 MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MÔ HÌNH CHỦ ĐỀ Bùi Thị Thanh Xuân Trường Đại học Thủy lợi email xuanbtt@tlu.edu.vn 1. GIỚI THIỆU trong tập các văn bản. Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là Mô hình chủ đề đã và đang rất phổ biến và một phân phối của tất cả các từ trong tập từ có ứng dụng trong lĩnh vực khai phá dữ liệu điển. Mỗi văn bản trong tập corpus được xem văn bản. Khi làm việc với mô hình chủ đề như một túi các từ các từ sinh ra là tổ hợp việc giải hiệu quả bài toán suy diễn hậu của các chủ đề mà tác giả muốn viết. Mỗi chủ nghiệm cho mỗi văn bản đóng vai trò quan đề là phân phối của các từ trong tập từ điển. trọng. Tuy nhiên bài toán suy diễn hậu Mô hình sinh được mô tả như sau nghiệm này thường đưa về một bài toán tối Với mỗi topic trong tập 1 2 K lấy ưu không lồi thuộc lớp bài toán NP-Hard 6 . Để giải bài toán suy diễn hậu nghiệm trong mẫu k Dir . mô hình chủ đề có nhiều phương pháp đã Sinh văn bản có độ dài được đề xuất như phương pháp biến phân - Lấy mẫu Dir Variational Bayes VB 1 collapsed - Với mỗi từ wn trong N từ variational Bayes CVB 3 hay phương pháp Chọn topic zn Multinomial collapsed Gibbs sampling CGS 4 . Tuy Chọn từ wn với xác suất p wn β zn nhiên theo tìm hiểu của tác giả các phương Trong 5 khi làm việc với mô hình LDA pháp này thường không đảm bảo về chất các tác giả đưa ra bài toán suy diễn cho văn lượng mô hình cũng như tốc độ hội tụ của bản d là thuật toán. Chúng tôi tiếp cận giải bài toán argmaxθ ΔK f θ suy diễn hậu nghiệm dưới cách nhìn của tối ưu không lồi. Sử dụng các biên ngẫu nhiên và với K K phân phối xác suất Bernoulli chúng tôi đề f θ d j log k kj 1 log k xuất thuật toán GOP giải hiệu quả bài toán j k 1 k 1 suy diễn hậu nghiệm với mô hình chủ đề từ Đặt đó phát triển thuật toán học ngẫu nhiên mô K g1 d j log k kj hình chủ đề từ bộ sưu tập văn bản lớn. Chúng j k 1 tôi tiến hành thử nghiệm trên hai bộ dữ liệu K g 2