向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

AlphaGo强到无悬念?柯洁第二战中主动投子认输

时间:2017-05-25 作者:36kr 阅读:
没有奇迹。用时三小时,在今天与 AlphaGo 的第二战中,柯洁中盘因为实地亏空太多,无力回天,在比赛进行到下午1点37分时主动投子认负,前两战均告失利,令众多围棋迷们扼腕叹息。

但毫无疑问,这盘棋不论是在精彩程度还是技术水准上都代表了围棋这项运动的最高峰,非常精彩,甚至在比赛结束前 20 分钟都还有专业人士认为柯洁有获胜的可能性。所以,尽管在结果上没有变化,但柯洁和 AlphaGo 已经携手为我们展示了围棋这项运动的美,不负巅峰对决之称。
20170525-kejie-alphago-2
比赛结果rJdEETC-电子工程专辑

这也基本意味着,这场三番棋大战以柯洁的认输而告终,不过27号将是柯洁有机会翻盘的最后一战。rJdEETC-电子工程专辑

在这次比赛中,围棋国手古力、张璇(曾获得过中国冠军)、刘菁、周睿羊担当开局时段的解说员。古力认为,在特别难判断的盘面上,AlphaGo比我们要思考地更加准确,也就是说从一步看未来几十步的“本事”。rJdEETC-电子工程专辑

从开局来看,柯洁想把时间多用在对布局的策略方面,而且在前十手时打的一直非常不错,盘面很稳,而且被预测赢面很大。柯洁甚至预料到AlphaGo多步棋的下子位置。rJdEETC-电子工程专辑

而反观AlphaGo,古力认为其开局表现跟人类无异,每一步下的都很平常,甚至很多步都被他预测到。rJdEETC-电子工程专辑

但是我们需要清楚,在前天进行的第一场比赛时,柯洁的胜率其实也是非常高的,但越往后,AlphaGo的胜率就逐渐慢慢提高了。rJdEETC-电子工程专辑

比较有意思的是,从一开局柯洁二手点了三三后,AlphaGo又在左下角下了“三三”。这个位置很令人惊讶,因为一般都会下在左上角。而哈克比斯在赛后这样解释:rJdEETC-电子工程专辑

“对于AlphaGo来说,它根本分不清什么是左上角和右下角,在它眼里这些都一样。”

一开始比赛的赛时没有被拉开,对弈双方的时间差也一直维持在十几分钟左右。但随着战局的推进,柯洁扯头发的次数越来越多(头发越来越乱),面部的表情也越来越焦虑。rJdEETC-电子工程专辑

最终,让所有人都没有想到的是,开局2个多小时后,局面出现反转,柯洁变得力不从心,然后突然在下午1点37分主动投子认输,AlohaGo在中盘执黑子赢得胜利!随后进行了复盘。rJdEETC-电子工程专辑

在整个比赛过程中,古力曾着重分析了AlphaGo的厉害之处:rJdEETC-电子工程专辑

在判断大局的方面真的非常厉害,也就是在所谓的“虚着”(类似于声东击西,在围棋中很多时候都需要声东击西才能摆脱困境或者是翻盘)上更胜一筹。你看那些稀疏的地方我可能真的判断不好。

通俗来讲,就是在棋子比较密布的某一区块上面,我们谁能猜到AlphaGo的落子结果;但在盘面比较虚的地方,例如棋子稀疏的下方(如图),我们根本无法猜到。而AlphaGo就是在这种情况下,不知不觉地积累优势。
20170525-kejie-alphago-4
右上角是密集处。而在下方稀疏的地方,虚着的盘面很难判断rJdEETC-电子工程专辑

其实,早在AlphaGo与柯洁未开赛前,我们曾经提出一个脑洞大开的问题:AlphaGo会不会故意输给柯洁?rJdEETC-电子工程专辑

这个命题可以设定为存在两种情况:rJdEETC-电子工程专辑

• 根据柯洁的现场表现,譬如AlphaGo是否真的可以通过识别他的手速、手部动作、面部表情甚至情绪来决定是否输给柯洁。rJdEETC-电子工程专辑

• AlphaGo的运算能力已经强大到不仅单纯追求“赢”,而是控制胜率的差距。譬如以微弱的优势打败柯洁,或者以半目之差输给柯洁。rJdEETC-电子工程专辑

第一个猜测被DeepMind创始人Demis以一个玩笑否认了:rJdEETC-电子工程专辑

这个建议太好了,看来我们以后也应该为AlphaGo安装一些传感器与摄像头。你要知道,AlphaGo一定是会有弱点的。而柯洁据说也通过分析AlphaGo掌握了一些它的套路,两位选手是势均力敌的。

而第二个猜测,的确是DeepMind持续提升AlphaGo能力的一个方向,但从目前来说,AlphaGo还做不到。rJdEETC-电子工程专辑

在在昨天的人工智能闭门大会上,DeepMind首席科学家Davis Silver已经非常清晰地解释了这个新一代AlphaGo的过人之处:rJdEETC-电子工程专辑

第2代“深度强化学习系统”AlphaGo Fan(共4代)共有12层卷积神经网络,而第4代AlphaGo(也就是与柯洁比赛的这一代)通过进行“自我学习”(监督学习与强化学习)已经训练出了40层神经网络(由策略网络与神经网络组成)。rJdEETC-电子工程专辑

在整个学习过程中,系统要对棋局进行图像扫描,分成无数个小块依次进行处理,最终构成整个全局观。具体来说,它可以近乎准确地判断棋盘上现有的棋子能给周围区域带来多大的影响力。rJdEETC-电子工程专辑

这个“全局观”,就是AlphaGo与人类最不一样的地方,也是古力在解说时特意强调的AlphaGo具备的一个能力:rJdEETC-电子工程专辑

策略网络,就是让AlphaGo先自己跟自己比,下个几万场,目的就是要“走对子”,选择最好的一步走,判断哪个策略最有效。rJdEETC-电子工程专辑

而在这个步骤结束后,继而形成价值网络,用来负责估算胜率。“策略网络”能够对所有落子位置进行概率分布,然后再将这些估算出的信息投入到蒙特卡罗搜索树中,推算出胜率最高的一些算法。rJdEETC-电子工程专辑

换句话说,就是每走出一步,价值网络就是通过这样的函数来预测未来的输赢,而不是静态地去考虑这步棋。rJdEETC-电子工程专辑

两者一前一后,就形成了AlphaGo的杀手锏——“在最后结果为‘赢’的前提下,去选择每一步最可行的路径”rJdEETC-电子工程专辑

这也能解释为何AlphaGo在去年与李世石三番棋的第二局比赛中,狗的第37子被称为“牵一发而动全身”的一步棋。在赛后复盘后,人类棋手才发现这步棋完全决定了后面50步棋的下法。rJdEETC-电子工程专辑

照这样来看,层数越来越多的神经网络决定了AlphaGo学习的深度正在越来越大,这就相当于AlphaGo不管是在思考每一步策略,还是在判断胜率的精准度上都有了很大的提高。rJdEETC-电子工程专辑

如果要故意输给柯洁,不仅需要AlphaGo的自我学习能力,还需要获得柯洁这位棋手足够多的数据,因为获得固定的胜率需要他去“揣摩”柯洁的直觉。rJdEETC-电子工程专辑

从理论上来说,如果AlphaGo能通过自我学习来掌握柯洁足够多的数据,是有可能控制胜率的(几率会更高)。
20170525-kejie-alphago-3
现场rJdEETC-电子工程专辑

在赛后的发布会上,DeepMind联合创始人兼CEO哈克比斯先生给了柯洁的开局表现一个极高的评价。他认为柯洁与AlphaGo的前15手,甚至在前100手的对弈中几乎是势均力敌的:rJdEETC-电子工程专辑

在第一盘到达“官子”的时候,AlphaGo让自己获胜的概率达到最大化,因此它要放弃一些点,其主要目的就是赢得比赛。但在这一场中,特别是在前100手,两者的差距非常小。因此,前半段双方赢得比赛的机会都非常大。rJdEETC-电子工程专辑

而且,这是AlphaGo打了这么多比赛以来,我觉得最势均力敌的一场比赛,柯洁的前半段表现真的十分完美。我发的Twtter也是这个意思,非常敬佩柯洁先生,他真的非常了不起”rJdEETC-电子工程专辑

柯洁赛后的心情虽然看起来还不错,他认为自己的对决很棒,甚至一度以为自己接近了胜利,能战胜Alphago:rJdEETC-电子工程专辑

在中途时我以为自己离胜利很接近了,我难道快接近胜利了吗? 因此我才有了按心的动作。因为太紧张,后面又下了一些不好的棋。这一点我觉得有点遗憾。rJdEETC-电子工程专辑

但我认为自己发挥的挺好,我不认为我布局有什么差的地方。前半段很精彩,只是后半段有一个地方就突然松弛了下来。rJdEETC-电子工程专辑

我不喜欢安乐死,之后也会好好下,但这场真的很紧张。

柯洁也在最后幽默了一把,他觉得坐在对面的黄博士没什么人类感,就是一个AI机器人:rJdEETC-电子工程专辑

黄博士在我对面,就像一个AI一样。我想黄博士是看着AlphaGo从小长大的,因为他可能更了解AlphaGo。你们知道我比赛喜欢乱动,挠头发什么的。但黄博士却一动不动,甚至不喝水,不吃东西,真的像个机器人……我还是挺适应黄博士坐在对面的。

而DeepMind首席科学家David则又披露了更多关于新一代AlphaGo版本的技术细节:rJdEETC-电子工程专辑

“Master版本已经完全脱离了人类的训练,是完全靠自我对弈来实现训练的,它可以进行自我对弈,也弥补了去年与李世石对弈的第4局第67手时犯下的错误(弱点) 他会在不断不断的自我学习中寻找弱点,然后再自动修复这些弱点,因此你才看到了AlphaGo更加优秀的表现。”rJdEETC-电子工程专辑

对于我们来说,在阿尔法狗又再次猝不及防战胜柯洁后,最关注的还是AlphaGo什么时候能够还能被披露更多细节,哈克比斯透露,随后会有更多关于狗的算法、技术架构通过论文向公众发布。rJdEETC-电子工程专辑

“我在最后要再次对柯洁表达敬意。而关于alphago的更多技术点,你会在我们此后的论文上看到,现在请让我们为柯洁的这场比赛鼓掌。”rJdEETC-电子工程专辑

原文链接:http://36kr.com/p/5077223.htmlrJdEETC-电子工程专辑

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。
rJdEETC-电子工程专辑

rJdEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣的文章
  • iFixit再次拆解三星可折叠手机Galaxy Fold,屏幕和铰链 此前三星在召回首款可折叠手机Galaxy Fold的时候,曾要求知名拆解机构iFixit取消其负面评论。iFixit当时在文章中表示:Galaxy Fold可折叠手机无法防止灰尘损坏屏幕。现在,经过一些修改,Galaxy Fold再次向市场推出。iFixit近日又对新Galaxy Fold进行了拆解。
  • ams收购欧司朗失败,这并不是最终结局 据最新消息显示,ams以49亿美元收购德国灯具和传感器制造商欧司朗的交易以失败告终。然而ams表示两家公司的发展方向有很多契合之处,并不会放弃,继续寻找方案收购....
  • 97岁“锂电池之父”等三位科学家获2019年诺贝尔化学奖 瑞典斯德哥尔摩当地时间9日中午,瑞典皇家科学院宣布,将2019年诺贝尔化学奖授予美国科学家约翰·古迪纳夫(John B. Goodenough)、英国科学家斯坦利·惠廷厄姆(M. Stanley Whittingham)和日本科学家吉野彰(Akira Yoshino),以表彰他们在锂离子电池研发领域作出的贡献。
  • 三星开发出12层3D-TSV封装,24GB HBM即将量产 10月7日,三星电子宣布已率先在业内开发出12层3D-TSV(Through-Silicon Via,硅穿孔)技术。该技术在保持芯片尺寸的同时增加了内存容量,不久后将量产24GB的高带宽内存(HBM)。
  • Qorvo®宣布收购Cavendish Kinetics 2019年10月8日,移动应用、基础设施与国防应用中核心技术与RF解决方案的领先供应商 Qorvo®宣布收购高性能RF MEMS天线调谐应用技术供应商Cavendish Kinetics。Cavendish Kinetics (CK) 团队将继续推动RF MEMS技术应用于Qorvo的全部产品线,并将该技术转变为能针对移动设备和其他市场进行大规模制造。
  • 三星手机厂全面退出中国,最后一家惠州厂关闭! 据路透社10月2日报道,韩国三星电子周三(2日)表示,已经在9月底暂停中国手机工厂的生产。这意味着三星在中国广东惠州的唯一一座手机生产厂也随之关闭。三星表示,这是一个“艰难的决定”,此举是为了提高效率。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告