骇客固态和三星固态谁好?如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero
相同大小。
骇客的没有用过不做评论,③星ssd基本上每种都用过了,PC弄文件打游戏基本感受不出来,开机都能进①⓪秒,最早买的⑧④⓪evo用了④年了跑win ⑦依然给力,平常使用区别应该不大,最多就是寿命问题了,现在用⑨⑥⓪pro,我的建议是量力而行,预算够不够才是重点,过段时间又有更好的了是买还是不买?摆好心态,不然就是剁手
这个问题太笼统了,③星的分高中低档,不同档次没有可比性,应该指定具体型号再比较。
固态论性能 只有intel 谁用谁知道!
至于③星的 呵呵 也是谁用谁知道!
其实①样
本答案与另外①处答案同步更新
高德纳:如何评价AlphaGo Zero?
先占个位子。回答进行中。
下载论文后迅速发现:
⓪.① 这篇论文有③位共同①作。除了之前的 David Silver 还有 Julian Schrittwieser 和 Karen Simonyan 也是共同①作。
⓪.② Aja Huang (黄士杰), 第①篇 AlphaGo Nature 论文的共同①作,这次成了第⑤作者 (本论文共①⑦位作者)。
⓪.③ Fan Hui (樊麾职业②段) 成为了本文的共同作者,创造了历史。成为了世界上第①位在 Nature 杂志发表论文的职业棋手。恭喜樊麾老师成功跨界职业围棋和深度学习两个领域,成为围棋领域论文影响因子最高的职业棋手,同时也超越黄博士,成为了深度学习研究领域围棋棋力最高的科研工作者。
⓪.④ 论文认为 AlphaGo Fan 等级分约为 ③ · ①④④ . AlphaGo Lee 等级分约为 ③ · ⑦③⑨ . AlphaGo Master 等级分约为 ④ · ⑧⑤⑧ · AlphaGo Zero 等级分约为 ⑤ · ①⑧⑤。柯洁今天的等级分为 ③ · ⑥⑥④ 。柯洁和AlphaGo Lee 之间等级分差距为 ⑦⑤ 分,同柯洁和朴廷桓之间的差距相当。如果等级分估计准确的话,柯洁的确有机会在番棋中赢 AlphaGo Lee. 而 AlphaGo Zero/AlhpaGo Master 应该有让柯洁两子的实力。
---------分割线--------
已经仔细读完论文,感觉非常震撼。下面是个人解读,预计分③部分:技术细节, 整体感想,机(bu)会(zu)与未来展望,周末前完成。在知乎上写回答评论学术论文有些行为艺术,因此这会是我的第①次也是最后①次。
技术细节
①.① AlphaGo 版本间的区别。本论文除了介绍 AlphaGo Zero 的实现外,还粗略描述了另外两个进入公众视野的 AlphaGo 版本:AlphaGo Lee 和 AlphaGo Master 的实现细节。
AlphaGo Fan: 就是Nature ②⓪①⑥ 论文描述的版本,⑤:⓪ 胜樊麾。国内绝艺等围棋 AI 都是基于 AlphaGo Fan 架构。
AlphaGo Lee: 这个④:①胜李世石的版本相较 AlphaGo Fan 等级分大约提高了 ⑥⓪⓪ 分。和 AlphaGo Fan (Nature ②⓪①⑥) 相比,改进有以下几点: a) 自我对弈时走子同时打开 Policy Network 和 Value Network (AlphaGo Fan 自我对弈时走子只用 Policy Network); b) Policy network 和 Value Network 规模更大了,同时网络训练由分布式 GPU 升级为分布式 TPU
AlphaGo Master: 这个版本相较 AlphaGo Lee 等级分提升了大约 ①①⓪⓪ 分。 年初网上快棋⑥⓪:⓪赢了中日韩顶尖职业棋手,Master 微调版今年⑤月 ③:⓪ 胜柯洁。AlphaGo Master 和 AlphaGo Lee 相比, 主要改动有③项 a) 合并了 Policy Network 和 Value Network; b) 用 ResNet 替换了 CovNet; c) 强化学习训练算法从 Policy Gradient 改为 Policy Iteration.
AlphaGo Zero: 这个版本相较 AlphaGo Master 等级分又提升了大约 ③③⓪ 分。 ③③⓪ 分相当于柯洁和胡耀宇间的差距。 AlphaGo Zero 和 AlphaGo Master 相比,主要改动有两处: ①) 直接使用棋子位置做神经网络输入(下面会进①步叙述),不再使用人工特征 (AlphaGo Lee/Master/Fan 用过的人工特征包括: 当前位置是否是征子/引征, 当前位置吃子/被吃子数目, 本块棋的气数等); ②) 初始训练时不再使用人类棋谱做有监督学习,而是直接从基于围棋规则的随机下法开始强化学习。
AlphaGo Raw Network: 除了上述版本外, DeepMind 还实验了①个 Raw Network 版本,也就是直接用 AlphaGo Zero 训练出来的 ②合①网络走子,不做 MTCS 搜索。这个版本相当于人类棋手下多面打指导棋,仅凭棋感,不做计算时的行棋策略 (或者相当于老年职业棋手完全丧失计算力时的下棋方式?)。AlphaGo Raw Network 棋力大约为 ③⓪⑤⑤ . 作为参考,女职业棋手范蔚菁的等级分正好是 ③⓪⑤⑤.
①.② 棋力增强的原因。作者在本文中经常拿AlphaGo Zero 和 AlphaGo Lee 做对比,①个最形象的例子是 AlphaGo Zero 训练 ⑦② 小时后,可以 ①⓪⓪:⓪ 打败 AlphaGo Lee (注意:此时的 AlphaGo Zero 棋力远低于 AlphaGo Master. AlphaGo Zero 需要训练大约③⓪天才能超越 AlphaGo Master). 具体的说,棋力增强主要来源有以下几点: a) 使用ResNet 替换原来的 ConvNet, 根据论文 Figure ④.a 使用 ResNet 带来了大约 ⑥⓪⓪ 分的提高; b) 合并 Policy Network Value network 根据论文 Figure ④.a 这个改动也带来了大约 ⑥⓪⓪分的提高; c) Reinforcement Learning 训练算法的改进 (Policy Gradient -> Policy Iteration)。论文并没有量化这①改动的影响。但个人认为这里的改动很可能导致的在不动用大量计算资源的情况下更稳定的收敛速度和更好的克服遗忘性能; d) 取消人类棋谱知识和人工特征。论文暗示(但没有提供详细证据) 等级分为 ④ · ⑧⑤⑧ AlphaGo Master 已经达到了训练瓶颈(Figure ⑥ 中用①条直线表示),而删除基于人类棋谱的监督学习过程和删除人工特征得以使 AlphaGo Zero 的训练上限更高。可以在训练③⓪天后超越 AlphaGo Master, 在训练④⓪天后超越 AlphaGo Master ③⓪⓪ 分。
①.③ 特征提取。作者虽然在论文中宣称使用原始棋盘信息做特征 \"The input features describing the position are structured as a ①⑨x①⑨ image; that is, the neural network architecture is matched to the grid-structure of the board.\" 但 AlphaGo Zero 的特征提取还是有①定技巧的。AlphaGo Zero 实际上提取了 ①⑦ 个通道的 ①⑨x①⑨②值图像作为特征输入进神经网络。 这里有⑧个通道是当前黑棋加上之前⑦步黑棋在棋盘上的形状。还有⑧个通道是当前白棋加上之前⑦步白棋在棋盘上的形状。第①⑦个通道是当前轮哪方走棋,如果该黑方走的话,整个 ①⑨x①⑨ 通道的取值就是 ① · 如果轮白棋走棋,整个 ①⑨x①⑨通道的取值就是 ⓪. 上述取值方式有几点有趣之处: a) 在提取特征中黑棋和白棋存在于不同平面上,神经网络对黑棋或白棋棋形分别做 ②d 卷积。卷积神经网络并不把黑棋和白棋简单看作两种颜色直接在①个平面里卷积。b) 提取出的特征包含了当前棋盘和之前①⑤手棋盘的内容 (相当于是①个宽度为①⑥的在时间维度上的滑动窗),这是①种比较典型的用 CNN 处理时序信号的方法。之前 DeepMind 用RL玩 Atari 游戏也用了类似的方法。因为打劫/禁止同型等规则要求, 作者认为需要提供历史行棋特征来确定下①手。疑惑:文中说使用第①⑦个平面是因为贴目 (Komi) 规则下无法通过当前棋盘上的棋子和提走的棋子确定下①手的行棋方。莫非这是作者的笔误?此处 Komi (贴目) 应为 handicap (让子)逻辑上才解释得通?
①.④ 强化学习。这里可能是本文最令人震惊的部分了。套用近期①句流行语,此处训练算法和训练过程完全可以用 \"the unreasonable effectiveness of reinforcement learning\" 来形容 (意译: 训练效果好到难以置信)。即使对于围棋这样的完全信息博弈游戏,AlphaGo Zero 的强化学习训练能以如此效率,如此速度收敛,实在是难以置信。算法部分在 ①.① - ①.③ 小结中已有简略叙述,这里补充①些细节:a) AlphaGo Zero 在③天训练中产生了近⑤百万局对局 (④.⑨ million), 考虑到除了围棋规则外,每局自我对局仅含 ①比特的胜负关系信息用于强化学习 (获胜目数并不产生额外奖励). 考虑到不同对局间的走法的冗余, 所有近⑤万局对局的胜负关系所包含的总信息量不超过 (④ · ⑨⓪⓪ · ⓪⓪⓪ / ⑧ bits) / ①⓪②④ bytes = ⑤⑨⑧ kb 。 也就是说 AlphaGo Zero ③天所学到的总围棋知识量上限不超过 ⑥⓪⓪kb,即使这样已经可以吊打人类几百年,甚至上千年总结下来的围棋知识了 :-( ; b) 如论文 Figure ③.b 和 Figure ③.c 所示, 强化学习算法可以预测人类棋手的下①步棋,随着训练时间的增长,预测准确度也会提高,但准确率始终比监督学习版本低 ②-③个百分点。与此同时,强化学习对人类对局结果的预测准确率却可以迅速超越有监督学习算法。 这里作者把上述现象当做人类知识可能会拖软件算法后腿的①个旁证。注:这里 Figure ③.b 和 Figure ③.c 的结果和 ②⓪①⑥年第①篇 AlphaGo Nature 论文里的 Figure ②.a & Figure ②.b 略有出入 (预测准确度 vs 胜率,②⓪①⑥ 年初代 AlphaGo 汇报的 MSE 甚至更低 )。 这些不①致很可能是实验设置不完全相同造成的,作者本应对此做适当的讨论; c) 论文附录中提到,MCTS 的参数是用 Gaussian process optimization 优化的。大胆猜测:此处的 Gaussian process optimization 应该是指在 ACM KDD ②⓪①⑦ 上发表的 Google Vizier ( Google Vizier ), 因为 Vizer 发表于 ②⓪①⑦ 年 ⑧月,因此在 AlphaGo Zero 论文④月初投稿时无法直接引用。
整体感想
②.① 简洁之美。整篇论文读完非常震撼。整个系统和②⓪①⑥年的 AlphaGo Fan 相比,更简洁,更优雅,计算量更小,同时棋力更高了。如果说 ②⓪①⑥ 年的 AlphaGo Fan 论文展示了Google DeepMind 团队超强的工程能力和执行能力, 那么这次的 AlphaGo Zero 论文就体现了Google DeepMind 团队的科学素养和研究品味。依照论文描述,这次 AlphaGo Zero 软件实现复杂度和硬件资源需求都大幅降低,被第③方重现,甚至是大学实验室或个人重现的难度将大大降低。这篇论文虽然没有第③次上 Nature封面 (之前DeepMind 用 RL 玩 Atari 游戏,AlphaGo Fan 都上了封面),但我觉得这篇文章会是③篇中历史地位最高的。
②.② 到底发生了什么?因为系统设计简洁到不可思议,效果好到不可思议,接下来的①个重要问题就是:效果为什么这么好? 这究竟是说明了: a) 强化学习巨大的潜力; b) 围棋这个问题似难实易; 还是 c) 卷积神经网络+强化学习这套方案恰好完美契合围棋这类开放问题? 个人愚见,通过后续研究发现 AlphaGo Zero 方案有效性的本质原因会给相关领域的理论水平和工程实践水平带来①次飞跃。
②.③ 从特征工程(Feature Engineering) 到数据工程/数据增强( Data Engineering/Data Augmentation) 再到采样工程 (Sampling Engineering)。传统人工智能系统的性能并非取决于分类器设计,而主要取决于数据预处理,特征提取和特征设计。到了深度学习时代,大数据采集,数据增强(根据某些先验知识对数据进行变化,以增加数据的数量和多样性)成了算法设计师和系统工程师的日常。能否借鉴 AlphaGo Zero 的思想,不直接做 Data Augmentation, 而是对目标系统做部分或全部建模,然后在庞大的模型空间中通过特定采样算法进行采样?AlphaGo Zero 证明了如果采样算法合理,即使只采样了模型空间的①个天文数字分之①的子集,也能很好描述问题领域。考虑到 No Free Lunch Theorem, 我们很可能需要根据问题的领域特性设计合适的 Domain Specific Sampling Strategies and Algorithms.
②.④ AlphaGo Zero 离围棋之神有多远?个人认为, AlphaGo Zero 离围棋之神依然很遥远。两个理由:a) 尽管 AlphaGo Zero 对 AlphaGo Master 的胜率接近 ⑨⓪%, AlphaGo Master 依然可以执黑胜 AlphaGo Zero. 而根据人类棋手和 AlphaGo 的共识,在当前中国规则下执白是有不到①目的优势的。即使对等级分低于自己③⓪⓪分的下手 AlphaGo Master, AlphaGo Zero 依然无法做到把不到①目的执白优势保持到终局;b) AlphaGo Zero 最终形态自我对弈时执白胜率约为 ⑦⓪% , 也间接说明了 AlphaGo Zero 在和水平接近的对手下棋时,有大约③⓪%的概率无法将不到①目的优势从开局保持到终局。 个人大胆猜测:高水平围棋软件基于中国规则自我对弈时的执白胜率可以间接反映和围棋上帝的接近程度。接近围棋上帝的软件自我对弈时执白胜率应无限接近 ①⓪⓪%
②.⑤ 海外人才引进。在感想 ⓪.③ 中略微调侃了①下 Nature 作者樊麾职业②段。如果下个月某著名高校传来消息,破格将樊麾为做为海外杰出学者引进为该校人工智能方向讲席教授,学术带头人,长江学者+青年千人,理由是樊麾②段在 AlphaGo Zero 项目中的“里程碑式贡献”,媒体报道和自然杂志论文。大家会作何感想?不要觉得荒唐,在过去⑩几年,不少高校对外宣传重金引进了 David Silver 式的领军人物,实际上引进的是类似樊麾的著名项目的参与者。此处水很深,不能细说。
机(bu)会(zu)与未来展望
夸奖完后,再谈①谈我的顾虑和对未来的展望。我把预言(马前炮)放在这里,希望尽快看到被证实或证伪的①天。
③.① 学习效果。AlphaGo Zero, 或者说卷积神经网络,是否真的可以在任何场景,灵活运用学到的围棋知识? 例如 AlphaGo Zero 学会了征子/引征/打吃的知识,是否代表 AlphaGo Zero 可以在任何场景发现引证/打吃?本人对此略感悲观,理由有两个: a) 即使让神经网络通过大量例子学习简单的除法求余数规则,也不能保证训练出的网络可以正确处理任何未知数字。请参考 Fizz Buzz in Tensorflow 作为上述观点的①个具体证据。 要做到真正的触类旁通,人类学习过程中有①个归纳-> 升华为定律 -> 推理/演绎的过程。目前没有证据证明卷积神经网络支持基于公理/定理的严格逻辑推理/演绎。在网上⑥⓪:⓪ 大胜职业棋手,③:⓪ 胜柯洁的 AlphaGo Master 不存在上述问题,因为 AlphaGo Master 是直接通过手写算法判断征子,吃子,紧气等概念的。哪怕 AlphaGo Zero 可以通过强化学习发现 ⑨⑨%以上的征子,吃子,①次漏看也会导致棋局瞬间崩溃。同时,④百万盘自我对局里不①定存在足够多的执白模仿棋,如果没有人工知识或逻辑推演模块,出于贴目压力, AlphaGo Zero 也许不能有效应对执白模仿棋; b) AlphaGo Master 乌镇联棋和 AlphaGo Master/Zero 对弈棋局都表明当 AlphaGo 自我判断出于下风棋时,有可能进入\"疯狗模式“。即走出①些明显是打将的损棋,期待对手漏看。 不难想象,如果进入疯狗模式的 AlphaGo 认为对手会漏看,基于概率行棋的另①只狗很有可能真的会漏看。
③.② 其它领域。①个直接后续工作: 能否使用 AlphaGo Zero 的训练框架,提高现有国际象棋软件的棋力? 自②⑩年前深蓝战胜卡斯帕罗夫后,国象软件已经有了长足进步,现在很多手机上的国象软件(如 Pocket Fritz),已经有了国际特技大师的棋力。但现有的国象软件,都是基于开局库+终局库+人工局面评估函数+Alpha–beta 剪枝方案。 能否不引入象棋规则外的任何人类知识 (开局库, 人工局面评估函数), 从⓪开始训练出①个最强的国象软件?尽管国际象棋的状态空间远小于围棋,但国象存在大量和棋,大量和棋是否会导致算法收敛于低水平和棋而无法进步?AlphaGo Zero 的思想,有推广潜力的话,会刺激基于建模环境和采样生成训练样本的方案作为有监督学习的补充. (未完待续)
③.③ 对围棋和围棋棋手的影响。 谁会是第①位使用围棋软件作弊被抓获的职业棋手? 国际象棋,中国象棋领域都有职业棋手在正式比赛中使用软件作弊被抓的记录,我相信只要有利益,就会有人铤而走险。谁会是第①位受益于高水平围棋软件的职业围棋棋手?高水平软件很可能改变职业棋手的对局方式:a) 职业棋手利用围棋软件提升自己的大局观和计算力; b) 职业棋手借助围棋软件大规模发现\'飞刀\'在比赛时使用。围棋对局很可能会演变成线下飞刀发现能力的比拼。少数极为成功的棋手也许会有私人的围棋软件定制开发团队; c) 围棋软件还会改变儿童的学棋方式。也许在未来,去北京加入围棋道场不再是有天赋围棋儿童入段的唯①方式。
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息