当接受了3千万步人类棋着的训练后,DeepMind神经网络能以57%的概率预测下一手人类棋着,这是一个令人印象深刻的数字(此前的记录是44%)。
在这之后,研究员们让该神经网络和与其自身略有不同的版本进行相互对弈,这被称之为强化学习。
本质上来说,通过神经网络进行自我对弈,系统会追踪哪一手棋能够带来最大利益——在围棋中体现在获得最多的地盘。
随着时间的增加,系统在识别‘哪些棋能带来利益,哪些不能’方面变得越来越完善。
‘AlphaGo通过其神经网络之间的数百万次相互对弈,日渐提高,最终学会了自己发现新的战略。’DeepMind的研究员西尔弗说。
据团队成员西尔弗的说法,这使得AlphaGo能够超越包括Crazystone在内的所有围棋AI系统。
在这之后,研究员们将研究结果输入第二个神经网络,收集它通过自我对弈给出的建议棋着,神经系统便可以预见这之后的每一步的变化。
这类似于较旧的系统(如深蓝)在国际象棋领域所表现出的一样,只不过AlphaGo系统在分析更多数据时,会不断进行自我学习并最终做到这一点,而非通过暴力的手段探索棋盘上所有的可能性。
这样一来,AlphaGo不仅学会了击败现有AI程序,也能学会击败顶尖的人类棋手。
4、风雨欲来
在非公开场合打败了欧洲的围棋大师之后,哈萨比斯和他的团队旨在在公开论坛上击败世界顶尖棋手之一的李世石。
不久之后的三月,AlphaGo将在韩国挑战围棋世界冠军李世石。
李世石是至今为止世界冠军数第二位的棋手,并在过去的十年里获得了最多的世界冠军。
哈萨比斯将他视为‘围棋世界的费德勒’。
根据库伦等人的说法,战胜世界冠军将比战胜欧洲冠军樊麾更具挑战性。
但是这次,库伦将赌注押在了一直以来的竞争对手——AlphaGo上。
在过去的十年中,他一直尝试开发出能够击败世界最顶尖棋手的AI系统,现在,他相信这个系统就在眼前。
上面这些内容,大家未必真能看得明明白白。
简单说,通常人们会认为,穷举法理应是计算机所擅长,而剪枝法赢为人类的天赋。
而计算机的穷举法非常有局限性。
这也是之前人们普遍认为,计算机围棋与人类顶尖棋手尚存在遥不可及的差距的根本原因。
但阿尔法狗取得了了不起的成就,它背后的谷歌团队悄然突破了“天堑”。
上面那些,总而言之可总结为——“深度学习”。
某种程度上,计算机已经可以如同人类一样进行主动学习并取得进步;而不是如之前那样,总是进行模仿、总是生硬地进行天量运算。喜欢承德围棋故事请大家收藏:(www.zeyuxuan.cc)承德围棋故事泽雨轩小说网更新速度最快。
到泽雨轩(www.zeyuxuan.cc)
看剑来