围棋软件ai水平最高(围棋软件ai水平最高视频)

围棋软件ai水平最高(围棋软件ai水平最高视频)缩略图

版围棋AI,功能最强大的是不是 Leela

版围棋AI,功能最强大的是不是 Leela

不是.是凤凰.比绝艺更强.

求 一个AI高一点的人机围棋软件

求 一个AI高一点的人机围棋软件

传说AI最好围棋人机对弈 手谈对局V5汉化绿色版 http://www.xdowns.com/soft/27/28/2006/Soft_30357.html

纯自学的AlphaGo到底有多强大

纯自学的AlphaGo到底有多强大

AlphaGo这个系统主要由几个部分组成:

走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。

快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。

估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。

蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。

我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。

1、走棋网络

走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。

DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SL network),理由是RL network输出的走棋缺乏变化,对搜索不利。

有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。

所谓的0.1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。

可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。

当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭“直觉”在下棋,只有在加了搜索之后,电脑才有价值判断的能力。

2、快速走子

那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。

其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。

这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。

为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。

与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。这里,我们就看到了走子速度和精度的权衡。

和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25.1%的准确率和4-5微秒的走子速度,然而全系统整合下来并没有复现他们的水平。

我感觉上24.2%并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24.2%要做更多的工作,而他们并未在文章中强调这一点。

在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,Aja Huang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。

3、估值网络

AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。

我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。

关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SL network保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。

一个让我吃惊的地方是,他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。

另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。

4、蒙特卡罗树搜索

这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。

一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。

5、总结

总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者David Silver和Aja Huang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。

从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。

最好的围棋软件可以达到什么水平阿

已经超越人脑了. 自从阿尔法狗横扫围棋界之后, 引起了人工智能的大潮, 各个平台都在开发围棋人工智能软件. 目前的水平,横扫人脑是不成问题的.

目前世界棋力最高的围棋软件是什么(人机对弈的)?

博弈围棋教育网有个什么软件也比较强大呀】 忘记叫啥名字了

围棋的人机对弈软件哪个最好? – 搜狗问问

天顶5 和银星12 有业余5段水平 百度——张朱泓杉(业余6段)围棋专业本科,为您解答.

围棋的人机对弈软件哪个最好?

目前最好的围棋软件还是银星10和手谈V. 银星10更好一些. 问题已解决可以采纳.

在围棋领域,人工智能现在到什么程度了?

在围棋领域,人工智能水平还比较差,还远远不能和职业棋手比肩.这有两个原因,一个是我们国家的人工智能水平比较差;另外,围棋的算法和国际象棋还有很大差异.现在做的比较好的人工智能好像还是中山大学的“手谈”.

大神有没有比较厉害的手机围棋软件ai,推

随着安卓手机平台的迅速崛起,适用于安卓手机的软件或游戏也越来越多.如需下载软件或者好玩的游戏,建议您可通过三星应用商店或手机论坛等搜索目前较为热门的软件.以三星应用商店下载软件为例:应用商店(三星应用商店)-应用/游戏-可查看“推荐”、“流行”、“分类”查找您喜欢的软件或游戏.

什么样的人工智能击败了职业围棋手

由谷歌英国研究团队开发的计算机系统在围棋比赛中击败了职业棋手。作为一种古老的东方棋类游戏,围棋强调策略和直觉。过去数十年,围棋一直是人工智能专家未能攻克的堡垒。然而,人工智能正在这一领域取得重要突破。

此前,计算机已在其他多种比赛,例如国际象棋、奥赛罗棋和智力竞赛《危险边缘》中胜过了人类对手。然而,围棋是一种具有2500多年历史的古老技艺,其复杂程度远超国际象棋,因此人类高手此前几乎不费吹灰之力就能胜过即使最强的计算机系统。本月早些时候,谷歌以外的人工智能专家已提出这样的问题,即人工智能在围棋领域的突破能否迅速实现。而直到去年,大部分人仍认为,计算机击败职业棋手还需要10年时间。

然而,谷歌已经做到了这一点。法国研究者雷米·库洛姆(Remi Coulom)此前曾开发了全球最强大的人工智能围棋程序。他表示:“这一天的到来比我想象中更快。”

谷歌于2014年收购了自称为“人工智能领域阿波罗项目”的DeepMind。去年10月,DeepMind的研究团队在伦敦办公室里主持了人工智能与人类选手的较量。DeepMind的这一系统名为AlphaGo,而它的对手是欧洲围棋冠军樊麾。在《自然》杂志编辑和英国围棋协会裁判的监督下,AlphaGo在五番棋比赛中取得了5:0的压倒性胜利。《自然》杂志编辑坦古伊·乔阿德(Tanguy Chouard)博士在本周二的媒体电话会议上表示:“无论作为研究者还是编辑,这都是我职业生涯中最令人兴奋的时刻之一。

自然》杂志发表的一篇论文介绍了DeepMind的系统。这一系统利用了多种技术,其中也包括越来越重要的一种人工智能技术,即深度学习。利用海量的人类高手棋谱(总步数约达3000万),DeepMind的研究团队训练AlphaGo自主学习围棋。然而这仅仅只是第一步。从理论上来说,这样的训练最多只能培养出与最优秀人类选手同等棋力的人工智能。而为了击败最优秀的人类选手,研究团队使这一系统自己与自己对弈。这带来了新的数据,而这些数据可被用于训练新的人工智能系统,最终胜过顶尖高手。

DeepMind负责人德米斯·哈萨比斯(Demis Hassabis)表示:“最重要的一点在于,AlphaGo不仅仅是专家系统,遵循人为设定的规则。实际上,这使用了通用的机器学习技术,能自行探索如何在围棋比赛中取胜。”

人工智能的这次胜利并不新鲜。谷歌、Facebook和微软等互联网服务早已利用深度学习技术去识别照片和语音,或是理解自然语言。DeepMind的技术结合了深度学习、增强学习,以及其他方法。关于现实世界机器人如何学习日常任务,并对周围环境做出响应,这指明了未来的方向。哈萨比斯表示:“这非常适合机器人。”

他同时认为,这些方法能加速科学研究,通过在工作中引入人工智能系统,科学家将可以取得更多成果。“这一系统能处理规模更大的数据集,分析得出结构化信息并提供给人类专家,从而提高效率。系统甚至能向人类专家提供方式方法的建议,协助带来突破。”

不过目前,围棋仍是他的关注重点。在关起门来击败一名职业选手之后,哈萨比斯及其团队将目标瞄准了全球顶尖的围棋选手。3月中旬,AlphaGo将在韩国公开挑战李世石。李世石拥有的国际比赛冠军头衔数排名第二,而过去10年中,李世石有着最高的胜率。哈萨比斯认为,李世石就是“围棋界的费德勒”。

比国际象棋更难

2014年初,库洛姆的围棋软件Crazystone在日本的巡回赛中挑战了依田纪基九段,并取得了胜利。不过,这一胜利的成色不足:Crazystone获得了四子的让先。当时,库洛姆预言,在没有让先的情况下,人工智能击败顶尖围棋高手还需要10年时间。

这一挑战的难度在于围棋本身。此前,在合理时间内,任何超级计算机都没有足够的处理能力,去预判每种可能的着法会带来什么样的后续结果。1997年,IBM“深蓝”击败了国际象棋大师卡斯帕罗夫,当时这台超级计算机采用了“暴力计算”的方式。从本质上来看,“深蓝”分析了每一步走法可能出现的各种结果。然而,这样做在围棋比赛中行不通。在国际象棋比赛中,一个回合可能的走法平均为35种。而围棋比赛采用了19×19的棋盘,平均每回合走法有250种。哈萨比斯指出,围棋棋盘上的棋型类型要比宇宙中的原子总数还要多。

利用名为“蒙特卡洛树搜索”的方法,类似Crazystone的系统能完成更多步的预判。而结合其他一些技术,计算机可以完成对多种可能性的必要分析。这样的计算机能击败一些不错的围棋选手,但距离顶尖高手还有很大差距。对真正的高手来说,直觉是很重要的一部分。这些棋手会根据棋盘上棋型来选择如何行动,而不是精确分析每一种着法可能会带来的结果。哈萨比斯本人也是围棋选手,他表示:“良好的棋型看起来就很漂亮。这似乎遵循某种美学。这也是这一游戏数千年来历久不衰的原因。”

不过,在进入2015年之后,一些人工智能专家,包括爱丁堡大学、Facebook和DeepMind的研究人员,开始探索利用深度学习技术去解决围棋的难题。他们设想,深度学习技术能模拟围棋比赛中必要的人类直觉。哈萨比斯表示:“围棋有着许多暗示,模式匹配很重要。深度学习可以做得很好。”

自我增强

深度学习的基础是神经网络。这种由软硬件构成的网络能模拟人脑中的神经元,其运转并非依靠“暴力计算”和人工制定的规则。神经网络会分析大量数据,以从事某项任务的“学习”。例如,如果向神经网络输入足够多的袋熊照片,那么它就能识别出袋熊。如果向神经网络输入足够多的单词发音,那么它就能识别你的语音。如果向神经网络输入足够多的围棋棋谱,那么它就能学会如何下围棋。

在DeepMind、爱丁堡大学和Facebook,研究人员希望,通过“观察”棋盘棋型,神经网络能掌握下围棋的方法。正如Facebook近期在一篇论文中所说,这一技术的运行情况良好。通过深度学习和蒙特卡洛树方法的结合,Facebook的系统已经击败了一些人类选手。

不过,DeepMind在此基础上更进一步。在学习了3000万步人类选手的围棋下法之后,这一神经网络预测人类选手下一步走法的准确率达到57%,远高于之前的44%。随后,哈萨比斯及其团队对这一神经网络进行了小幅调整,使其与自己对弈,这种做法被称作增强学习。在这一过程中,神经网络可以了解,什么样的走法能带来最好的结果。

DeepMind研究员大卫·希维尔(David Silver)表示:“通过在神经网络之间进行数百万局的对弈,AlphaGo学会自己发现新策略,并逐步改进。”

希维尔表示,这使得AlphaGo能胜过其他围棋软件,包括Crazystone。随后,研究人员将结果输入至另一个神经网络。在首先判断对手的下一步行动之后,这一神经网络能利用同样的技巧去预判每一步的结果。这与“深蓝”等较老的系统类似,而不同之处在于AlphaGo能在过程中进行学习,并分析更多数据,不再使用暴力计算的方法去判断所有可能的结果。通过这种方式,AlphaGo不仅能胜过当前的人工智能系统,还能击败人类高手。

专用芯片

与大部分先进的神经网络类似,DeepMind的系统运行在基于GPU(图形处理芯片)的计算机上。GPU最初的设计目的是游戏和其他图像应用的图形渲染,但近年来研究表明,这类芯片也非常适合深度学习技术。哈萨比斯表示,DeepMind的系统在配备多个GPU芯片的单台计算机上有着相当好的表现,但为了挑战樊麾,研究人员搭建了更庞大的计算机网络,其中包括170块GPU卡和1200个标准CPU处理器。这一庞大的计算机网络对AlphaGo进行了训练,并参与了比赛。

哈萨比斯表示,在与李世石的比赛中,AlphaGo将采用同样的硬件配置。目前,他们正在持续改进这一人工智能系统。为了准备与李世石的比赛,他们还需要互联网连接。哈萨比斯表示:“我们正在安装自己的光缆。”

库洛姆和其他一些专家指出,与李世石的比赛将更困难。不过,库洛姆已经下注DeepMind。过去10年中,他一直希望开发出能胜过顶尖围棋高手的系统,他认为,这一系统现在就在这里。他表示:“我正在购买一些GPU。”

未来之路

AlphaGo的重要性不言而喻。这一技术不仅可以应用于机器人和科学研究,也适合其他许多任务,例如类似Siri的移动语音助手以及金融投资决策。深度学习创业公司Skymind创始人克里斯·尼克尔森(Chris Nicholson)表示:“你可以将其用于任何具有对抗性的问题,例如需要用到策略的各种比赛,以及战争和商业交易。”

对一些人来说,这种情况令人担忧,尤其考虑到DeepMind的系统已经有能力自学围棋。AlphaGo的学习素材并不来自人类,而是可以通过自行生成数据来自我指导。近几个月,特斯拉创始人伊隆·马斯克(Elon Musk)等知名人士曾表示,这样的人工智能系统最终将超越人类智力,突破人类的控制。

不过,DeepMind的系统受到了哈萨比斯及其团队的严格控制。AlphaGo被用于最复杂的棋类游戏,但这仍只是一款游戏。实际上,AlphaGo距离真正的人类智慧还有遥远的距离,远远没有达到超级智能的水平。

华盛顿大学专注于人工智能的法学教授、科技政策实验室创始人瑞安·卡洛(Ryan Calo)表示:“这仍是一种高度结构化的情况,并非真正人类水平的理解力。”不过,AlphaGo指明了未来的方向。如果DeepMind的人工智能系统能理解围棋,那么就能理解更多信息。卡洛表示:“宇宙只不过是一场更大的围棋游戏。”