文献综述(或调研报告):
1. 强化学习相关算法
1.1 Q-learning [2][3][4][5][13]
Q-learning是由Watkins提出的一种模型无关的强化学习算法,又称为离策略TD学习(off-polocy TD)。不同于TD算法,Q-learning迭代时采用状态-动作对的奖赏和Q*(s,a)作为估计函数,而不是TD算法中的状态奖赏和V(s),因此在Agent每次学习迭代时都需要考察每个行为,可以确保学习过程收敛。Q-learning算法的基本形式如下
式(1)中表示 agent在状态s下采用动作a所获得的最优奖赏折扣和。由此可知,最优策略为在s状态下选用Q值最大的行为。类似于TD学习,Q-learning首先初始化Q值;然后 agent在状态,根据贪心策略确定动作,得到经验知识和训练例 其次根据此经验知识依据式(2)修改Q值。当 agent访问到目标状态,算法终止一次选代循环,算法继续从初始状态开始新的迭代循环,直至学习结束.在这个过程中, ,Q-learning不同于TD算法有两点:1) ,Q-learning迭代的是状态动作对的值函数;2) ,Q-learning中只需采用贪心策略选择动作,无须依賴模型的最优策略.由于在一定条件下,Q-learning只需采用贪心策略即可保证收敛,因此,Q-learning是目前最有效的模型无关强化学习算法. Watkins等人利用随机过程和不动点理论,证明当满足一定条件时MDP模型,Q-learning过程的收做性,并给出更加详细的泛化证明,同样, Q-learning也可根据TD(lambda;)算法的方式扩充到Q(lambda;)算法。
-
- MADDPG [6]
作者提出了一种actor-critic方法的变体MADDPG算法来研究多智能体的强化学习。传统的分散式增强学习(Descentralized reinforcement learning)方法,比如DDPG,actor-critic learning,deep Q-learning等等,在多智能体环境下的学习总是显得很挣扎,这是因为在每个步骤中,每个智能体都将尝试学习预测其它智能体的行动,并且同时还要采取自己的行动,这在竞争的情况下尤为如此。MADDPG启用了一个集中式Critic来向智能体提供同类代理的观察和潜在行为的信息,从而将一个不可预测的环境转换成可以预测的环境。对每个agent的强化学习都考虑其他agent的动作策略,进行集中训练和分散执行,取得了显著效果。此外在此基础上,通过训练一系列集成策略的智能体,进一步提高方法的性能,这种方法广泛适用于任何多智能体算法。
-
- DQN[8]
作者使用最近先进的手段训练深度神经网络类得到一个名字叫深度Q值网络的算法,它可以使用端到端的强化学习算法从高维的传感器输入中成功的直接学习到成功的策略。作者在很有挑战的游戏Atari2600中测试了这个算法。证明了,使用同一种算法和网络,同一种超参数,在49种游戏集合中,仅仅使用像素点和游戏分数作为输入,超过以往的任何一种算法达到和专业游戏玩家的水平。这个工作在高维数据输入和动作输出之间建立了桥梁,使得人工智能代理可以有擅长一些列的挑战性的工作。
该算法将深度学习和强化学习结合起来,从而成功地直接从高维的输入学习控制策略。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。