基于强化学习的智能博弈系统的设计与实现文献综述-文献综述网

毕业论文课题相关文献综述

文献综述文献综述一、引言2016年，随着AlphaGo以四胜一负的成绩击败围棋世界冠军李世石，强化学习，特别是深度强化学习方法，在世界范围内引起了巨大的轰动，引起了全世界的关注[1]。

深度强化学习(deep reinforcement learning: DRL)通过端对端(end-to-end)的学习方式，实现从原始输入到输出的直接控制，广泛应用于处理高维度原始输入数据，并进行控制决策的任务中。

在博弈类游戏[2]中使用机器学习算法训练的程序最早的是 TD-grammon[3]。

它是使用强化学习算法训练的西洋双陆棋系统，它仅仅是通过自己与自己下棋就达到了人类专家的水平。

后来，IBM公司在1997年开发的深蓝象棋程序，经过了六场对决，最终以两胜一负三平的战绩战胜了当时的象棋世界冠军。

2015年，Facebook公司的人工智能部门开发出了计算机围棋程序 Dark Forest，该程序除了表现出与专业人士相似的下棋风格之外，还具有了超越职业棋手的实力[4]。

2016年3月，Google公司的人工智能团队Deep Mind 带着他们的围棋程序AlphaGo[5]与世界排名前列的李世石对弈，最终以4:1战胜了人类。

2017年Deep Mind团队带着升级版的围棋程序Alpha Zero与世界排名第一的棋手柯洁对弈，最终以3:0取得胜利。

这些计算机程序不再使用暴力搜索空间的方法而是使用机器学习的方法求解最优策略。

每一次的改进都是效率的提升与依赖计算机硬件的减少，虽然计算机围棋程序战胜了人类第一的棋手，看似对推动人类进步没有巨大的作用，但是这种方法给其他领域的研究带来了新的思路。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。