AlphaGo创始人:希望下个阿尔法围棋对手是中国柯洁

在今年3月进行的围棋人机大战中,阿尔法狗(AlphaGo)最终以4:1战胜了韩国名将李世石九段,引起了全世界的广泛关注,也让神经科学和深度学习等概念进入了公众的视野。本届达沃斯也专门针对这一世纪大战举办了一场研讨会议,以探讨计算机程序战胜围棋世界冠军的科技和社会意义。会议邀请了当事人李世石,以及两位人工智能的专家与学者——Vicarious公司联合创始人兼首席技术官Dileep
George和耶鲁大学生物伦理学跨学科中心学者Wendell
Wallach参与讨论。会议的主持人是上海科技大学创业与管理学院院长李玫。这场分论坛引起了众多参会者的关注,开始前30分钟现场便已排起了长龙,最终除了与会者只允许5家媒体进入会场旁听,界面新闻有幸成为了这5家媒体中的一家。会议一开始,主持人李玫便针对“人工智能”的定义向嘉宾们抛出疑问,而嘉宾们对此意见不一。Dileep
George认为能够通过数据了解并认识世界,通过不同的学习模型掌握解决问题的技巧,就称得上“人工智能”。而Wendell
Wallach则认为,能够从数据中学习是人工智能的一大特征,但因为目前机器还不能在复杂的环境中感知事物,要达到真正的人工智能还有一定的距离。真正对“人工智能”有直观认识的,毫无疑问是曾直接跟阿尔法狗对峙的李世石。在问到当时对战阿尔法狗的感受时,李世石表示最大的感受是“惊讶”。“围棋有很多不确定的因素,机器的局限性是很多的,在下棋过程中也会出现漏洞,因此之前观看阿尔法狗跟樊麾的比赛让我以为计算机达不到围棋选手的最高水平。结果大家都知道:我输了。”李世石回忆道。由于人与人对弈时或多或少会有情感流露,面对毫无情感而言的阿尔法狗,也让李世石有更大的心理压力,从而困难重重。“人会有心理上的摇摆,即使知道准确的答案,在下子那一刻还是有可能会选择另一条路,考虑其他的选择。但阿尔法狗不会有任何的动摇,这就是我所面对的最大困难。”李世石表示,人与机器对弈会处于非常不利的局面,譬如如果对战三局,棋手通常每局都会采用不一样的开局,而阿尔法狗则不会有任何变化。“面对毫无感情的对手是非常难受的事情,这让我有种再也不想跟它比赛的感觉。”李世石无奈地承认,如果再有机会跟阿尔法狗对弈,情况一定也会非常艰难。不过面对背后数以百计的CPU、GPU以及众多科学家支撑的阿尔法狗,李世石并未感到不公平,他认为自己最大的失误,在于对深度学习这个领域没有足够的了解,而轻视了对手。“在看过阿尔法狗跟樊麾的比赛后,我一直认为自己会赢,但没想到短短六个月阿尔法狗的棋艺竟然有了如此大的进步,让我非常吃惊。”在每次对战之前,李世石都会在自己脑海里进行很多演练,但因为上场的对手不是人类,让他感觉非常生疏。回顾那几局比赛,李世石认为自己还是有机会战胜阿尔法狗,他觉得由于自己对阿尔法狗的实力判断失误,导致自己没有发挥出应有的实力。“但是谁知道这几个月里面它又有了怎样的长进?”李世石依然表达了他的疑虑。阿尔法狗在比赛中曾经有过不按套路的表现,如果按照人类的定义,这或许就是机器所表现出来的“创意”。不过三位嘉宾均认为“创意”对人和对机器的定义是不一样的,因为双方的认知范围并不一致。“阿尔法狗甚至可能不知道自己在下棋。”李世石说。在阿尔法狗取得令人赞叹的成就后,人工智能将会对我们的生活带来什么样的影响?Wendell
Wallach认为,这表明,机器学习的能力越来越重要,比如机器能识别图像的能力,就为人们带来了人脸识别、无人驾驶、天气预测等方面的应用,深度学习在医疗领域也将有广泛的应用。Wendell
Wallach同时也指出,人工智能在社会伦理上将面临一些进退两难的困境。比如面对即将发生的交通事故,无人驾驶的人工智能应该挽救乘客还是挽救路上的人?人们接受问卷调查普遍认为应该做出“挽救更多生命”的选择,但被问到会不会买这样的无人驾驶车,大部分人的答案却是不买。这显示人们对人工智能依然持有不信任的态度。李世石认为人工智能未来在围棋领域的发展则简单得多:“人工智能在发展,但人也在发展。”他认为,虽然在围棋领域人类将越来越难战胜人工智能,但因为人工智能是可预知的,能够非常准确地完成自己的任务,他愿意让人工智能指导自己的女儿学下围棋。最后主持人李玫总结道,人们常常不由自主地将人工智能放在人的对立面,譬如认为人们的工作将被机器替代,但实际上培养下一代,让人类跟随技术一起成长,将人类的能力跟机器的能力融合起来,才能产生超级智力,解决更多的问题。

科学现场 别了,人类对手

人工智能阿尔法围棋与韩国围棋高手李世石的人机大战9日打响。39岁的阿尔法围棋创始人德米什哈萨比斯此前在首尔接受了新华社记者的采访,讲述了这场人机大战背后的故事。

马博从未下过一盘完整的围棋,但他的“作品”很会下棋。

哈萨比斯说,此次阿尔法围棋的对弈选择了中国的规则。因为对电脑来说,中国的规则更为简便易行。而且他知道,中国也有许多高水平棋手,他们也希望阿尔法围棋能与高水平的棋手对弈,比如柯洁。

最近,在一场世界级的围棋大赛中,“绝艺”以7∶0战胜“星阵”获得冠军,俩选手都不是人。绝艺来自马博所在的腾讯AI团队,星阵的前身是清华大学开发的“神算子”。

但是,此次人机大战是历史上第一次电脑挑战职业九段棋手,哈萨比斯表示,他们希望选择在顶尖水平已有十年甚至更久的李世石。也许更年轻的选手,也能有这个水平,但现在还不确定,因为他们还需要有十年顶尖水平去证明自己。我们也知道,还有很多实力很强的选手,所以这次比赛之后,也许我们也会去中国、日本,与那里的高手切磋棋艺,哈萨比斯说。

参加本届腾讯世界人工智能围棋大赛前,绝艺曾对阵柯洁豪取13连胜,还以11连胜的战绩夺得第10届UEC杯计算机围棋大赛冠军,成为这项承载“攻克围棋”使命的AI赛事里最后一个冠军。它的名字来自杜牧诗句“绝艺如君天下少,闲人似我世间无”。

作为一位人工智能专家,哈萨比斯对围棋的浓厚兴趣促使他对阿尔法围棋进行研发。他告诉记者,早在20年前上大学时,他曾在剑桥的一个高水平围棋社团里学习围棋,并很快沉迷其中。但是因为忙于电脑方面的工作,他没有足够时间去练习,围棋技艺仅停留在业余一段水平。不过,这并不妨碍他喜欢围棋。

比起UEC杯,腾讯举办的人工智能围棋大赛参赛门槛更高:参赛程序需要获得过世界人工智能围棋比赛前8名的成绩,或棋力在腾讯野狐围棋平台九段及以上。大赛吸引了包括日韩两国国家围棋队指定训练AI在内的众多高手,一度被外界认为是一场“众神之战”。

上大学时,哈萨比斯教会了他的合伙人下围棋。那时正值超级电脑深蓝战胜世界冠军卡斯帕罗夫。从那时起,哈萨比斯就在想有一天能为围棋写一个程序,并赢得冠军。

人类世界的围棋高手只是观众

两年前,哈萨比斯终于等到合适的时机。他创建的深度思维公司开发了深度学习的程序。他们想让这项技术得到更广泛的应用,于是,哈萨比斯选择了围棋。他希望通过利用深度学习程序打造阿尔法围棋能战胜人类围棋大师。

2016年3月以来,在腾讯程序员马博的工作计算机里,绝艺几乎24小时都在跟自己下棋,每天对弈成千上万盘。

哈萨比斯坦言,他没有与阿尔法围棋对弈过,因为它实在太强大了。阿尔法围棋的学习能力很强,自己完全不是它的对手。

这样的对局数,是人类棋手一生几万盘棋难以企及的。而在19×19的方格世界中,存在着10171种有效对局盘,数量超过宇宙原子的总和。

在哈萨比斯看来,他并不认为人工智能会让人类生活变得危险。相反,他觉得人工智能很神奇。他谈到了欧洲围棋冠军樊麾。阿尔法围棋此前以5:0战胜了樊麾。目前,樊麾在为阿尔法围棋这个项目提供咨询。樊麾告诉他,在与阿尔法围棋对弈过程中,自己的排名在三四个月的时间里,从世界600名提升到了第300名。哈萨比斯因此感到,这也许是今后阿尔法围棋能投入市场应用的一个目标,许多人可以通过这个程序提高自己的围棋水平。特别是在西方,并没有太多优秀的围棋选手,所以对于一个生活在西方的优秀的中级选手来说,如何变得更强是件很困难的事。

两年前,李世石以1∶4败给阿尔法狗,后者的训练数据是3000万盘棋。人类不再心存“赢”的幻想。此后阿尔法狗又连胜中日韩高手60盘,其技艺“让人类棋手感到绝望”。

哈萨比斯最后说,无论阿尔法围棋是否会战胜李世石,都不会削减围棋的魅力。围棋之所以受欢迎,取决于谁去下和怎么下。如果今后阿尔法围棋变得更加强大,也许还能够推动人类围棋的技艺水平上升到一个新的阶段。

两周前,众多围棋国手来到他们熟悉的中国棋院对弈场,只当观众。马博和绝艺研发团队第一次走进中国围棋最高殿堂:“棋圣”聂卫平、“八冠王”古力、“天才少年”柯洁都曾在此留下名局。

AI棋手没有环肥燕瘦或迥异个性,它们不像聂卫平那样嗜烟如命,在烟雾缭绕中陷入棋局的沉思。也不会有柯洁的年少轻狂,对阵前辈李世石前放话“胜算95%”。它们是一行行代码和后台的计算资源,人类棋手要紧跟棋盘局势都显得十分吃力。

“比赛现场观众都是一些职业棋手。”马博对中国青年报·中青在线回忆,他将笔记本电脑接入比赛的对弈系统,点击屏幕上的“开始”后,就“与我无关”了,人类棋手则紧盯着对弈台后面的电子棋盘。虽然人类前辈在几千年前就已经开始黑白“搏杀”,并且一直是胜负的主角,但此刻的棋盘上还是有太多人类从未见过的“杀招”。

“我们和AI的思考层级不同,在计算量上存在着差距。”作为决赛解说嘉宾的古力表示,他曾和绝艺有过数次交手,但对手成长之快,他始料未及。3年前,风头正盛的日本围棋AI“DeepZenGo”开发者加藤英树曾表示,人工智能攻克围棋至少需要10年。

我们是人类,人类会犯错误

两年前的绝艺还只是业余五段的水平,如今古力已用“不可思议”来解说昔日对手的战术了。就在4个月前,古力在个人微博上晒出“绝艺正式成为中国国家围棋队训练专用AI”画面,并配文“国家队的训练方式跟上了时代步伐”,而此前的中国国家队并没有专用AI。

在赛场上,马博偶尔也会听听解说嘉宾聊起的围棋段子,或是走下对弈台喝喝茶,和罗洗河聊聊天——后者是绝艺的围棋顾问,也是开发团队中唯一能下完一盘围棋的人。这位曾在2006年1月终结“李昌镐时代”的传奇棋士,也是截至目前和绝艺对弈最多次的人类。他需要通过与之对弈发现漏洞,将它打造成“围棋上帝”。

比起棋盘走势,马博和他的对手更关心各自电脑屏幕上闪现出来的一行行胜率计算结果,那是AI通过算法分析落子位置得出的获胜概率。屏幕上胜率持续上升,意味着此前的算法分析没有出现失误,布局意图正逐步实现。但随着对手落下一颗棋子,局面的胜率就会被算法重新统计。

绝艺使用的算法框架并非马博团队的首创。“人工智能领域有很多公开的算法框架,按照这些框架很快就能做出产品。但如果要达到更高的胜率,就要在算法细节和计算能力上努力了。”
虽然马博为绝艺写下了第一行代码,但其核心算法框架来自于Deep Mind团队。

2016年1月28日,谷歌旗下的Deep
Mind团队在《自然》杂志发表论文,介绍了阿尔法狗程序的技术细节,还附带它以5∶0横扫三届欧洲围棋冠军樊麾二段的喜讯。

樊麾并没有像1997年国际象棋世界冠军卡斯帕罗夫那样,在被IBM研发的象棋AI“深蓝”击败以后,指责这款电脑程序作弊,并要求重新比赛。他也并没有像这位俄罗斯棋王一样,有过3次击败“棋桌对面新型智慧”的战绩,并坦言“自己还有几年的安稳日子”。面对比国际象棋10120种变化更为复杂的围棋,樊麾的劣势要更加明显。

“人类是会犯错误的,因为我们是人类。”阿尔法狗在樊麾眼里像一面没有任何情绪波动的墙,稳稳地堵住了他调动的一切经验和智力攻势,也压住了一名顶尖棋手求胜的欲望。如果没有事先告诉他阿尔法狗是程序的话,樊麾甚至会认为对方是一个棋路清奇的人类棋手。

一年后的乌镇棋局,阿尔法狗又以3∶0的战绩强势逼哭了棋盘对面的柯洁,这位围棋史上最年轻的五冠王第一次在赛场上失控落泪。在离开对弈台的20分钟里,他觉得自己就像一个“无助的孩子”,对过程和结局都感到绝望。

“对手非常完美,没有任何缺陷和失误,而且也没有任何心态上的波动。”柯洁赛后曾表示。阿尔法狗也在此战后成为中国第43位中国围棋九段获得者,它的42位九段前辈都是人类。

人工智能下围棋不需要人类对手了

“没有情绪”或许是人们对阿尔法狗最为感性的理解了。

实际上,阿尔法狗有着两个强大的决策网络:Policy Network和Value
Network。前者主要判断在当前局面下,下一步棋该怎么走。作出这样的判断,不仅需要提前输入人类已探索出的大量棋谱,还要让其能够通过大量的自我对局结果来学习评价每一步棋的优劣。后者则相当于人类棋手的“大局观”,阿尔法狗在自我对局中会逐渐学习评价整体局面的走势。

第一个网络在从人类棋手已有的走法中筛选出若干种可能的同时,也会通过蒙特卡洛树搜索来展开这些走法并给出优劣判断。蒙特卡洛树搜索正是围棋AI算法的核心之一。在对弈时,它会随机选择一种落子路径并向下展开,如果这种落子路径能够获胜,就会被赋予一定的权重,并在下次随机选择路径时被优先选中。

第二个网络则会利用整体局面的判断删除那些无法得到高胜率的落子路径,同时也能根据下一步棋将导致的新局面的优劣,给出落子建议。最终的落子决定则是由两个网络被平均加权后作出的。

这种既有局部判断又作全盘分析的思考方式已经接近人类棋手的思维。虽然棋手选择的落子位置并非由局部和全盘的思考加权平均决定,但DeepMind在论文中却得出了这样的结论:两个大脑取平均的结果比依赖两者各自得出的结果要好很多。

2017年10月,在宣布阿尔法狗退役后的5个月后,DeepMind又在《自然》杂志发表最新论文。他们最新的“狗”在3天时间内积累了490万盘围棋赛的训练数据,并以100∶0完胜曾经打败过李世石、柯洁等人的——过去的那个自己。此时的阿尔法狗已经完全不再需要人类棋手的定式了,所有的训练都是通过自我博弈增强学习来完成。

马博团队先后借鉴了Deep
Mind两篇论文,但他们已经不再热衷战胜人类棋手,以证明绝艺的实力了。很多围棋界的棋手期待绝艺能逼出阿尔法狗与之一战,探索围棋之道的极限。

这样的众望,人类曾寄托于吴清源、聂卫平、李昌镐……当然,也给过出战阿尔法狗之前的人类棋手。

中国青年报·中青在线实习生 王子凯 来源:中国青年报