面向多智能体强化学习协同规划文献综述-文献综述网

一、选题背景和意义：

1.选题背景

如今，以滴滴打车为代表的网约车行业逐渐兴起。每天面对超过3000万用户的用车需求, 调控系统如何充分调配网约车资源，对高峰时间段和人流密集地段做出合理预测规划，已成为系统能够快速满足百万级以上乘客出行需求的必要条件。

传统的中心式网约车路径规划方法虽然能够从理论上保证规划效率，但是该方法一方面需要环境的先验知识，另一方面因其高复杂度，无法适用于大规模需求相应问题。强化学习 (Reinforcement Learning，简称RL），通过利用智能体自主学习策略，在复杂多变的未知环境下，可以在并不需要依赖于大量先验知识条件下，仅通过动作的执行与环境进行交互，根据环境的反馈，智能体可以逐渐适应环境。而在多智能体系统（Multi-Agent System，简称MAS）下，单个智能体求解问题的能力通常十分有限：仅通过智能体的独立学习，在全局角度下并无法达到最大收益。因此需要设定协同规划机制，多个自治的智能体按照已有知识或者通过自主学习，与其他智能体进行沟通协作，组合求解。

采用协同机制的多智能体强化学习技术在对复杂多变的环境时，具有独立的自主决策能力与面对动态变化的自适应能力，大大提高了系统的灵活性与可靠性。在大规模分布式系统控制中，如网约车调控系统、订单派发、路由流量分配等情况下，协同机制在构建多智能体系统中充当至关重要的作用。

2.选题意义

设计面向动态环境的基于多智能体强化学习的协同机制，该机制不仅适用于网约车调控系统，满足广大乘客的用车需求，同时适用于大规模群体运动场景，譬如1）机器人信息采集，其中多个机器人在未知的环境下协同采集信息（包括灾难场景下的救援任务）和2）城市规模的警察巡逻问题，其中上百个警察需要分散到城市中不同的地区，并且在不同的时间段，根据警情的分布，警察的巡逻规划需要动态的变化。

二、课题关键问题及难点：

1.维数灾难问题。

对于采用了表格式的Q-learning的训练方式，对环境或者智能体状态的刻画维度增加，将会导致计算复杂度上指数级的增长。因此需要对环境和智能体进行合理建模。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

面向多智能体强化学习协同规划文献综述

您可能感兴趣的文章

登录

您可能感兴趣的文章