- 文献综述(或调研报告):
- 强化学习
- 强化学习的基本原理
强化学习的基本思想是智能体 (Agent)在与环境交互过程中,根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策,主要用来解决决策优化类的问题,其基本要素有策略(Policy)、奖赏函数(Reward Function)、值函数(Value Function)、环境模型(Environment),学习过程可以描述为如图1所示的马尔科夫决策过程。
图1 强化学习基本学习模型
首先,智能体感知到当前状态,从动作空间A中选择动作执行,环境根据智能体做出的动作来反馈相应的奖励,并转移到新的状态,智能体根据得到的奖励来调整自身的策略并针对新的状态做出新的决策。强化学习的目标是找到一个最优策略,使得智能体在任意状态和任意时间步骤下都能够获得最大的长期累积奖励。
其中,表示智能体的某个策略,为折扣率,k为未来时间步骤,S为状态空间。
- 强化学习的算法
强化学习的各类算法根据不同的特征具有多种分类方式,如根据模型是否已知可分为模型已知(model-based)和模型未知(model-free)两类;根据算法更新方式可以分为单步更新和回合制更新两类;根据动作选择方式可以分为以值为基础(value-based)和以策略为基础(policy-based);根据学习策略和执行策略是否为同一策略可分为同策略(on-policy)学习和异策略(off-policy)学习。
- 深度强化学习
传统强化学习在模型较为简单的场景取得了较好的效果,但现实中的问题往往都比较复杂,状态空间和动作空间维度都很大,此时传统的表格型强化学习不再适用。随着深度学习的兴起,深度学习与强化学习的结合研究也受到了很多关注。谷歌DeepMind团队创造性地将具有强大感知能力及表征能力的深度学习与具有决策能力的强化学习相结合,形成了人工智能领域新的研究热点,深度强化学习(Deep Reinforcement Learning, DRL)。
DRL中最具有代表性的算法是由谷歌DeepMing团队中Mnih等人提出的深度Q网络(Deep Q Network, DQN)。在DQN算法中,使用深度神经网络来代替Q表,能够使用状态空间和动作空间非常复杂的场景,将当前状态值作为神经网络的输入,输出端输出所要采取的动作,并采用Q学习的方式对神经网络的参数进行更新,利用经验回放机制减小了数据之间的相关性,缩短了训练时间。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。