-
最强版阿尔法狗已停止进一步强化 缔造者称正着手星际争霸
关键字: DeepMind开发星际争霸最强版阿尔法狗澎湃新闻10月20日报道,DeepMind公司10月18日新发布的最强版阿尔法狗(AlphaGo Zero)仅用3天时间,490万盘自我对弈的训练数据,一台机器和4个TPU就打败了战胜过韩国棋手李世石对弈的AlphaGo。该团队成员称,公司内部已经停止了AlphaGo的强化研究,他们正着手开发星际争霸。
AlphaGo项目首席研究员,大卫·席尔瓦 澎湃新闻视频截图
仅用3天时间,490万盘自我对弈的训练数据,一台机器和4个TPU就打败了战胜过韩国棋手李世石对弈的AlphaGo,DeepMind公司10月18日新发布的最强版AlphaGo Zero技惊四座。
在最新的论文和官方博客中,DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯(Demis Hassabis)和AlphaGo团队负责人大卫·席尔瓦(Dave Sliver) 将AlphaGo Zero的成功归咎于强化学习的升级。这一次,他们仅采用单一的神经网络,综合了策略网络和价值网络两种此前用的方法,在不用人类棋谱的情况下,完成了上所述的成就。
10月19日,大卫·席尔瓦与团队另一成员 Julian Schrittwieser 代表 AlphaGo ,在问答新闻社区Reddit上回答了网友的提问。
在问答过程中,席尔瓦透露,目前,DeepMind内部已经停止了强化 AlphaGo 的积极研究,但仍保留了研究试验台,以供 DeepMind 人员验证新思路和新算法。至于未来是否会开源给全球开发者共享。席尔瓦表示,DeepMind之前已经开源了大量的代码,但过程一直非常复杂。不幸的是,AlphaGo 项目的代码库更加复杂,甚至可以说复杂的过分了。
值得一提的是,据两位成员透露,在开发AlphaGo的过程中,DeepMind团队遇到的最大困难是在与李世石比赛期间出现的。当时,团队意识到 AlphaGo 偶尔会受到错觉(delusion)的影响。即对弈中,会持续多次系统地误解当前的棋局。他们尝试了很多方法来解决,如给程序灌输更多的围棋知识或人类元知识。这一次他们的解决方法是让系统的算法变得更加条理化,使用更少的知识,更多地依赖强化学习来生成更高质量的解决方案。从最终结果看,效果还不错。
AlphaGo Zero更多依靠强化学习算法,而不是人类数据的方法,也引发了算法和数据之间哪个更重要的讨论。在Julian Schrittwieser看来,目前算法仍然比数据更重要,只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那么多就能理解。但这也表明,未来,数据在训练效率上的重要性还会有很大的提升。
DeepMind与暴雪合作打造的图形界面,将把《星际争霸 2》简化成基本的视觉图形 图源:钨丝科技
另外,网友还特别关心了DeepMind星际争霸人工智能的开发进度,Julian Schrittwieser回答道:“我们宣布开放星际争霸 2 环境刚过去几个星期,所以现在还处于早期阶段。星际争霸的行动空间确实要比围棋更具挑战性,因为其观察空间要远大于围棋。从技术上讲,我认为两者最大的区别之一在于围棋是一种完美信息博弈,而星际争霸因为有战争迷雾,属于不完美信息博弈。”
在问答中,也有网友将DeepMind的人工智能与Facebook的研究做比较,两者究竟谁更胜一筹。对于这个问题,席尔瓦说:“Facebook 更关注监督学习,它能产生当时性能最优的模型;而我们更关注强化学习,因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明,只有监督学习确实可实现令人惊叹的表现,但强化学习绝对是超越人类水平的关键。”
澎湃新闻记者/王心馨
- 原标题:最强版阿尔法狗已停止进一步强化,缔造者称正着手星际争霸
- 责任编辑:徐蕾
-
●  观察者头条  ●风闻 · 24小时最热 查看全部>>最新视频最新闻 Hot
-
《科学》揭露美国医药审查黑幕 或许证实了你的猜想
-
这片子观众少到没评分,却看透日本如何培养队长小翼
-
“仗势欺人美国佬”加渔船在争议水域被美巡逻队拦下
-
泰沉船事故致42人遇难 为何一上船就收走救生衣?
-
靠香港群众的捐款,他在内地做了件了不起的事
-
独立日,自由女神像上的抗议者被捕
-
印航回应改成“中国台北”:外交部指示
-
“为什么美国不直接入侵委内瑞拉呢?”
-
“美关税清单200多亿由外资生产 美企占相当比例”
-
英媒在美独立日发文 美国人上去就怼
-
只是觉得好玩?男子在上海地铁多次点火烧纸被刑拘
-
日本老牌女子大学将招收男生:只要内心是妹子就行
-
最近美国高官吃个饭真是坎坷
-
亲妈把孩子罩在凳下打麻将?警方回应来了
-
有这样一个“阴谋论”在美国疯传…
-
我,默克尔,不慌了!真的吗?
快讯 -