tailieunhanh - Thuật toán học phân tán cho hệ đa tác tử

Báo cáo trình bày một thuật toán học tăng cường cho hệ thống bao gồm nhiều tác tử cộng tác với nhau trong đó quá trình học được tiến hành song song và phân tán trên tất cả tác tử. Thuật toán học được xây dựng trên cơ sở cải tiến thuật học Q (Q-learning) với bảng Q được phân tán và cập nhật độc lập trên các tác tử. | THUẬT TOÁN HỌC PHÂN TÁN CHO HỆ ĐA TÁC TỬ Từ Minh Phuong Học viện Công nghệ Bưu chỉnh Viện thông Một ưong những vẩn đề đặt ra đổi với hệ thong bao gồm nhiều tác tử ỉà tác từ phải có khá năng phổi hợp hành động với nhau sao cho hành động chung dẫn tới kết quả mong muốn vẩn đê này cỏ thê giãi quyết bằng cách cho tác tử tự học cảch phổi hợp với tác từ khác nhờ các kỹ thuật học tự động. Học tăng cường reinforcement learning ỉà kỹ thuật học tự động được sừ dụng rộng rãi nhất cho tảc lừ độc lập và gần đây được nghiên cứu mở rộng cho hệ đa tác từ. Bảo cảo trình bầy một thuật toán học lãng cường cho hệ thống bao gồm nhiều tác từ cộng tảc với nhau trong đỏ quá trình học được tiến hành song song và phân tản trên ĩẩl cả tác từ. Thuật toán học được xây dựng trên cơ sở cài tiến thuật học Q Q-ỉearning với bảng Q được phân tản và cập nhật độc lộp trên các tác từ. Thuật toán được cài đặt và thừ nghiệm cho bài toán dì chuyên vật nặng với hai tác tử. Kẻt quả thừ nghiệm cho thầy tỉnh hiệu quả và khả năng ứng dụng cùa thuật toán. 1. ĐẶT VÁN ĐÈ Hệ đa tảc từ muỉtiagení system là hệ thống trong đó nhiều tác tử tự chủ tương tác với nhau để thực hiện một số nhiệm vụ nào đó. Yêu cầu quan trọng đối với hệ đa tác từ là tác tử phải có khả năng phối hợp hành động với nhau sao cho toàn hệ thống hoạt động hiệu quả. Cơ chế phối hợp có thể cài đặt sẵn khi xây dựng tác tử dưới dạng các quy ước các kế hoạch lập sẵn các kỹ thuật đồng . 14 . Một phương pháp đảm bảo phối hợp khác là không cài đặt sẵn cơ chế đồng bộ mà để tác từ tự học cách phối hợp hành động thông qua kinh nghiệm thu được trong quá ưình tương tác với nhau. Phương pháp này có một sổ ưu điểm như trực quan cho kết quả ồn định vấn đề đặt ra là cần xây dựng các thuật toán học tự động phù hợp với tính chất phân tán và không đồng bộ vốn có của hệ đa tác từ. Học tăng cường reinforcement learning truyền thống là kỹ thuật học tự động dùng cho một tác tử riêng lẻ. Tác tử phải học cách ra quyết định hành động thông qua chuỗi các tương tác với

TỪ KHÓA LIÊN QUAN