bilibili.com/video/BV1Sv421k74F

晚上好，我是蓝色蒜头。
2024 年 2 月 23 号，短播客第 87 期

继续昨天的话题
智能时代，AI 配合人类怎样达到更高的水准
提升行业整体的水平

我们以过去若干年的围棋人工智能引发的行业变化为例
来说明今天的话题

围棋这样的带有规则的思维活动
在过去可能会被赋予多重精神层面的含义

例如人生感悟、例如哲理、例如对弈等于手谈
这些含义有正面意义，但是事实上有的时候
会陷入某种玄学倾向

比如，上个世纪末期
曾经一度认为，智能程序在围棋棋力上难以超越甚至难以接近职业棋手
一种想象就是，程序没有感悟、哲理、手谈这些认知
所以始终相比于人在境界上差了一些玄而又玄，只可意会不可言传的神秘事物

但阿尔法GO 以及后来各个企业机构纷纷实现的围棋智能程序
剥掉了这些玄而又玄的外衣，让大家知道其实可能并没有那么神秘

人生感悟、哲理、手谈的乐趣当然会有
但是这些和单纯的围棋胜负无关

所以推此及彼，智能时代其实在很多方面都会是一个去除迷思的过程
去除执念的过程，或者用思想理论的术语说是「祛魅」

可以简单回顾一下目前已经不是秘密的阿尔法GO
在当初的工程实现路径

其实就能匹配我前两期的说法
阿尔法GO 严格来说分两个版本
在首尔和李世石对弈的版本，可以叫做旧狗
在乌镇和柯洁等棋手对弈的版本，可以叫新狗

旧狗和新狗的训练方法，也就是工程实现方法并不一样

其实在旧狗之前还有一个旧旧狗
最早有公开记录，并且发布了相关论文的
围棋程序打败人类职业棋手的案例

其实是旧旧狗创造的
当时被打败的是樊麾，职业二段水平
同样是五番棋，公平对局，没有让子

当时以这件事为整个工程的研究成果的一部分
在《自然》杂志发布了一篇论文，论文在 2016 年 1 月发布
而旧狗打败李世石发生在 2016 年 3 月
时间隔得很近

所以综合下来，樊麾的这次对局给整个世界留下的印象不多
而李世石的对局给人留下的印象极重

为什么印象极重
因为实际上直到 2016 年以前，围棋程序还没有达到人类棋手的职业初段水准
之前最好的传统方法实现的围棋程序，可以和业余五段下得有来有回
而对上职业初段，不让子的情况下，没有胜利的机会

印象之所以重，来源于进步速度的震惊
多数人对于事物的变化，比较能够接受的是渐变
这种心态放在围棋程序上

预期就会是，围棋程序的棋力随着技术改良一点点的提升
先达到人类初段水平，再逐渐爬升，越来越厉害
最后挑战九段，打上很多个来回，最后险胜超过
人类再改进思路，再拉扯，再超过

如果是文学影视作品
这样的桥段可以水的比较长，观众的情绪体验比较好

但现实里，昨天还完全没有职业水平的围棋程序
忽然出现在首尔，公平挑战符号式人物小李李世石
五盘 4:1 将其击败

几乎没有给所有人留下精神层面上的酝酿和准备时间
破坏了所有的预期
所以才印象极重

上面这些故事其实很多朋友已经非常熟悉
讲得再多就是继续啰嗦

所以回到主题观点
在一个领域，一个水平足以超越顶级专家的智能体要怎么去构建
它的构建过程是不是其实可以没有顶级专家的参与

在阿尔法GO 这件事情上，不管是旧狗还是新狗
其实答案都是：是

也就是，其实打败九段职业选手的程序
不管打败的是李世石，还是巅峰水平要更高的柯洁
在这个程序的构建过程，没有同等水平的棋手参与

我们来复盘一下当时阿尔法GO 的团队认知水平和用到的数据
团队主要成员之一是黄士杰

黄士杰作为这样的项目的重要参与者
首先是一个计算机专家，
精通计算机程序的设计和编写

黄士杰懂不懂围棋，当然是懂的
不可能说一个一点都不懂围棋的人
去花时间精力做围棋程序

那么他的围棋是什么水平
这个其实很多公开资料里都有，是业余六段的水平

围棋的业余段位，对于大多数爱好者来说
业余五段，算是一个大门槛

业余六段的棋力，一般从统计学意义和普遍感受上来说，可能相当于职业一段
但同段位内有强弱，业余和职业也有比赛等级，比赛经验差距

所以还是会有一个不容易量化但确实存在的门槛

业余六段这个棋力，放在围棋领域就很有趣
正好对应蒜头播客前两期的那个知识层级划分
超过了第三层，正在向着第四层迈进的这样一个水准

在整个的工程团队里
黄士杰是团队里最懂围棋的人
所以整个团队的最高围棋水准，就是卡在刚过第三层级这样一个区间

团队另外一个重要负责人是
杰米斯·哈萨比斯
也懂一些围棋，不过只有业余初段水平
距黄士杰差得都很远

除此之外，并没有在围棋方面更厉害的人参与
更没有九段顶级高手参与

换位思考
如果是我，我也不会去想让九段顶级高手参与

首先高手的时间很值钱，而我的工程项目
我的研究有试错的过程，不一定会出什么成果
让顶级高手陪着我一起试错，我也觉得没必要

如果我付他费用，预算可能要增加好多
如果他为了人工智能的前途，执意不要费用，全程奉陪
这个人情，我觉得我也欠不起

除非我和他真的是亲人，是老铁，之前就有很硬的交情，那另说
但这种情况怎么都是少数

这个其实倒是其次的，另一个干扰因素其实更麻烦
做过智能程序的朋友都知道

训练过程里，肯定不可能一蹴而就一步到位
一开始小样本做实验的时候，做出来的程序很弱智
可能一点都不智能，非常的智障

这种智障的状态，也就是会犯新手的低级错误的状态
什么时候能解决，其实不好预期
有时候觉得好像没问题了，结果又出现偶发的低级错误

判断和纠正低级错误，黄士杰本人就可以
没有必要劳动更高段位的棋手
如果放一个九段在这里，基本上就是浪费资源

而当程序的训练水平提高
不再有低级错误，可以去谈论它的棋力的时候
让一个九段水平的高手全程陪练，不一定是好事

因为到这个段位，也就是我们说的第四知识层级
每个顶尖专家都有了自己的个人风格
棋力这件事情，不是一个单纯的比数字大小
而是在对局中，谁的风格怎样，一盘棋的前中后期风格碰撞导致复杂局面和最终结果
而国际排名是多次比赛多次对局的一个当下统计结果

并不是说我找来国际排名最高的棋手
训练成匹配他的风格的智能程序
就能打败所有九段

如果要以把所有九段高手一个一个去打败的思路
去构建这种智能程序，这是不现实的
因为没有办法在项目没有取得成果的时候
把所有的九段高手全部找来一起配合

当程序打败了李世石，打败了柯洁等人
所有的人不管水平高低肯定都摩拳擦掌想和它对局
但是它还没有完成的时候，很多人毫无兴趣

不能在一个工程的实现过程中
就苛求所有人有对于那种期望中的理想结果的反应
想不通这一点的人，建议不要去做工程，也不要去碰人工智能
否则要么心态上坚持不下去，要么变成一个彻底的只会造议题的大忽悠

所以，在阿尔法GO 真正和李世石对局之前
没有李世石同等水平的人参与工程项目

这看上去好像有点怪
但是是符合逻辑的

阿尔法 GO 当然不是光靠黄士杰的棋力搭建
也不是复制一个黄士杰
黄士杰起的作用，是根据自己对围棋和对于计算机程序的双重理解
把很多围棋理解转化成计算机程序中的规范描述
以及在一些一二层级的基础知识上，给程序实现基本判断

实际上就起到推着程序走，以及修正训练方向的作用
初期的训练数据来源，根据后来的推测，可能包括两部分

第一部分是所有的能够找到的棋谱
从古到今，从教学谱到比赛谱
这部分可能作为最初始的，指定最初权重的训练集
当然，阿尔法GO 的实现重点在于通过自我对弈来不断强化
由于我们实际上没有接触全部的工程细节

这些初始训练集，以及自我对弈的做法
分别在各个时期的什么版本里占多少比重
只能去猜想

第二部分是 2014 年到 2015 年的一年半之间
一个名叫 deepmind 的账号在弈城围棋网平台上和网友进行对局
一共下了 300 多盘棋，水平在 7D-8D 之间
差不多相当于黄士杰自己的水准

之后，在和樊麾对局之前，这个账号停止下棋三个月
后来再回来，又下了 136 局，此时的水平在弈城 9D 水准

目前普遍认为这个账号就是阿尔法GO 早期版本的测试账号
但黄士杰没有明确承认，目前这个账号也已被删除，所有对局不在可查

棋谱 + 实际的平台对局 + 自我对局
基本上构建了打败李世石的阿尔法狗，也就是旧狗

实际上，到了新狗，也就是乌镇的哪个版本 alphaGO Master
其实已经明确的说过，基本是靠着自我对弈来实现棋力提升
新狗的训练其实甚至都没有给棋谱
而是先和旧狗对弈，再和自己对弈

首先旧狗肯定没有第四知识层级的人直接参与
给他的棋谱中间会包含第四层级的知识

但是到了新狗的版本，实际上已经不依赖于这个层级的知识来构建
而无论是 DEEPMIND 的内部测试

还是柯洁以及中国棋院的一致评价
新狗显然比旧狗要厉害的多
一度把柯洁打到所谓的道心破碎

从旧狗打败李世石
到新狗乌镇五比零

中间还有一段故事是新狗在弈城和野狐两个平台以 Master 为名
和人下快棋，每天 10 盘，对局对手均为中日韩顶级高手
最终 60 战全胜
这件事情当时也被新闻联播进行了报道

到最后的乌镇峰会，那个五比零的正式慢棋对局结果
就已经让所有人心服口服

整个故事告诉我们，至少在围棋这个领域
构建超过人类最高水平的人工智能体

实际上它的工程过程并没有顶级人类专家的参与
甚至第二期的工程，没有第四层级知识的输入

也就印证了我前两期的观点
构建超过人类最高水平的智能
可能既不需要第四层级的人
也甚至不需要第四层级的知识

阿尔法 GO 在乌镇之后其实还做了一个更新的版本 AlphaGO Zero
这次是完全不输入任何棋谱资料，也不依赖与任何人和任何其他程序对弈来训练
从只知道规则的 0 基础开始，完全用自我对局的方法训练

这个版本没有进行公开赛
但是测试的结果，其棋力还要超出乌镇的 Master 版本

虽然目前所有的 alphaGO 版本已经「退役」
但是上述所有说法可以取信，因为其他很多团队已经做到了工程上的复现
也打造出了超过人类水准的围棋智能体

因此，超越人类不是问题
但是，蒜头的观点，不是单纯的智能体超越人类

而是智能体 + 人类，把行业的平均水准变得更高
把人的水平也一起变高

那么阿尔法GO 有没有做到这一点
显然是有的

简单从四个方面进行概括

第一，阿尔法GO 帮助人类顶尖棋手修正了一些旧的观念
一些过去被认为收益不大的走法，经过围棋程序的发挥
被人重新审视，例如对于三三这个点位的理解
经过围棋智能仔细计算各种走法的胜率变化之后
和人的传统定式理解完全不同
最终帮助人们修正了原来的下法

第二，帮助人类创造了新的定式
例如芈昱廷的芈式飞刀
飞刀定式是公认的在人工智能参与高水平围棋对局之后才形成的定式
之所以之前没有机会形成这样的定式
是因为它相比于所有传统定式，后续变化过于复杂
有数百种不同的分支
只有当 AI 可以评估每一步棋的胜率变化时
这种变化复杂的研究才可能更快的得出结论
把不好的下法在中途排除

而如果没有 AI 参与
仅靠人类自身思考
大部分变化都要下到中盘甚至后盘才能得出结论
则很难形成完整的理论体系

所以 AI 在这里帮助人类创造了新的超越过去的知识
掌握了这些知识的人，即使脱离 AI，也比过去的人水平更高

第三，人工智能显然提高了所有爱好者的整体围棋水平
现在非常多的围棋程序可供不同水平的人来选择
从初学入门到最顶尖的水平
随时可以和智能对手进行对局
而且可以把智能对手的棋力调整到适合自己的水平
通过不断的观察胜率计算，不断反复尝试不同走法
对于围棋的理解水平提升要比之前所有的教学手段都要来得效率更高

当然，肯定会有开着围棋程序去平台上
装作自己在和人下的那种小丑行为
但这种行为不会影响大众对于围棋的认知
也不会影响认真要学棋的人对于围棋的乐趣

第四，也是我认为最重要的一点
智能体对围棋的认知去除了过去的迷思，破除了玄学的执念
但是，我们谈到的围绕围棋的那些人生感悟，哲理，手谈的乐趣
却没有因此而消失，而是作为正确的形式被真实的赋予之后的爱好者

一局围棋有胜负之分
而全部的围绕围棋的概念远不止胜负
当纠缠胜负的执念被破除
剩下的不止胜负的事物才会更加丰富

而更多的领域，其实不可能也没有必要以胜负去衡量
在围棋之外的这些领域，智能体的水平超过人类
在胜负意义上的影响更小，在把领域变得丰富
在通过智能体 + 人去提升整个领域的水准这一点上
也同样值得期待

围棋已经很复杂了
其他的各种各样的领域
有不一样的复杂性，要面对不一样的概念

但无论如何，在过去将近十年里，围绕围棋的智能体的发展
是否给我们带来一些可以参考的启示
让我们至少可以去考虑复现某些工程方法的可能性呢

到这里就是蒜头在这个星期的五期播客要讲的全部内容
这些话题远远没有结束，我们在时代变化的过程中
有无数的机会可以去讨论，可以去修正

希望不同行业的朋友
大家一起来思考这些有意义的问题
拒绝低水平的讨论

今天就聊到这里，这个单元到这里结束
我们下个星期更换话题
回到紧张刺激的电子游戏和社会问题上来

祝大家进步，周末愉快，好好休息，晚安，再见！

DAY-87 AI 配合人类，如何抵达更高水准？