晚上好,今天是 2023 年 12 月 28 号
欢迎收听蓝色蒜头的短播客第 57 期
就在今年,3D 电子游戏的技术缔造者
嗯,这么说应该问题不大
约翰卡马克
也开始积极投入人工智能领域
今年 3 月份和 9 月份,分别有对于他的访谈的报道
其中他谈及了一些比较独特的观点
今天我来尝试做一些解读和延伸
关于卡马克今年的这些访谈
可以去搜索「约翰卡马克 + 通用人工智能」
应该可以看到不少报道
需要注意的是,这些报道的标题啊
充满了议题设置的噱头
一直想把读者往非重点的,价值很低的信息角度去带偏
充分体现了一些媒体的蠢与坏
大家应该绕过这些报道的标题去看其中具体的内容
卡马克今年的这些访谈
对我来说有三个看点
第一是他对于人工智能形态的思考
第二是他对于技术作为领域的第一推动力的认知
第三是他投身于新领域时的学习方法
下面,分别来简单展开
就在今年 2023 年,大规模训练的智能模型
特别是大语言模型,取得了不少的进展
以及让人们见识到很多实践上的可能性
蒜头播客在前面的若干期已经陆续有所介绍
如果没有收听前面的期数也没有关系
简单总结的话
大语言模型的真正未来性
可能在于能最终消除应用切换
并且作为多种智能体的整合框架
让人们通过持续平滑的信息流去完成多变的任务
不过,工程技术的魅力在于
达到某种未来性,其路径并不唯一
今年多数大型公司都开始投入大语言模型的训练
是因为它被证实能够通过增加硬件与数据规模
来取得比较容易预估的收益
所以会被大公司所认可
并不是说,这就是唯一的工程路径
他只是当下看起来走得远一些的路径
卡马克这样的人
早年已经证明了自己是天才的工程师
如果仅仅是在规模扩张 上重复其他人已经进行的工作
对他来说不会有什么兴趣
他在访谈中表示的观点是
大语言模型这样的进步值得肯定
但是整个的训练和搭建过程
可能需要太多的人力资源
这条技术路径,
是小团队花费一生的时间
也无法和大公司比拟的
卡马克其实更希望去找到一种更加精简,更加优雅的算法实现
能够让 AI 基于更分散的算力以及更分散的数据
去完成自动演化
他心目中设想的这种实现
代码量应该非常少
可能只有几万行
个位数的程序员就可以重复实现
当然,这种代码量的减少
其驱动力当然也包含了硬件的进步
卡马克计划以 2030 年为界限
进行这样的尝试
他自己估算,达到这样的目的
也就是以更精简的代码
不同的算法,实现通用化人工智能
在 2030 年的概率可能是 60%
这个年份和这个数字并不重要
不用在意
即使是技术天才
在具体量化的预测上也经常出偏差
想要理解卡马克的这种想法
应该结合他的个人历程
约翰卡马克出生在 1970 年,今年 53 岁
在很多传统的领域,53 岁的年龄可能还不足以
被认证为行业的某种缔造者
而在计算机领域,特别是电子游戏领域
一些似乎已经是很久以前的上古大神
依然有足够的活力
说约翰卡马克是 3D 电子游戏的缔造者绝不为过
当今的 3D 游戏程序实现
如果看做一个技术大厦
其中最基础的许多部分正是由约翰卡马克搭建
篇幅所限,简单列举两个技术点
说明卡马克的开创性贡献
首先是纹理映射 Texture Mapping
也就是我们平时的口语中常说的「贴图」
在卡马克的技术实现之前
在电子游戏领域的 3D 视觉实现
要么通过二维图形要素
以近大远小的缩放关系和
位移变化的比例关系
来在屏幕上实现某种视觉模拟
要么就是用工程制图里面的
等距视角投影,又叫等轴侧投影
来以 2D 图片绘制场景
由于这个播客只是纯声音播客
没法展示
你可以理解为那种缺乏实际透视关系的
工程图纸斜视图
在计算机的世界里
如何构建对于 3D 物体的呈现
当年并没有一个统一的高效的结论
卡马克的贡献在于
提出了一套理论 + 实践的方法
用空间中的点坐标表示三维物体的几何形状
以点形成面,然后以纹理、颜色、材质等二维信息
映射到这些面上,也就是 MAPPING
在映 射的过程中,由程序处理这些二维信息的
旋转、缩放、变形
从而形成立体的观感
中文里的「贴图」说法,则非常的形象直观
卡马克在早期的游戏作品里
实现了整套基础的算法
并且在这个过程中
甚至可能实现了基于某个特殊魔术常数的
平方根倒数近似值快速算法
等高性能基础算法
之所以说可能,是因为目前无法考证
这一算法的最早实现者是不是他
但给算法找到非常合适的使用场景
以及在整个业界的普及使用的贡献者
则一定是他
这个知识点涉及很硬的计算机科学讲解
播客里显然没有办法展开
只好就此略过
卡马克的厉害之处
在于不仅是实现了一两个函数
而是实现了一套基础方法论
并且这套方法论沿用至今
无论是今天的 4090 显卡
还是虚幻 5 这样的先进引擎
整个逻辑也都构建在这些基础之上
卡马克的另一个贡献则是
最早在图形渲染方面提出了节约硬件性能的方法论
也就是二叉空间分割 BSP
Binary Space Partitioning
具体的技术细节这里不作展开
简单来说,就是实现了在一个静态不变的 3D 场景中
根据摄像机观察视野来进行渲染
而让视野之外的信息不被渲染
这套方法虽然原始
今天会有很多更好的其他方法
来处理更复杂的空间几何结构
或者变化运动的场景渲染
但是建立了一个很独特的算法思路
巧妙的用上了看似没有关系的二叉树数据结构
又用上了把空间递归分割的做法
做到很简洁的代码
其实远远不止这些,包括渲染缓存
动态光照、动态阴影
许多的技术基础之中,都能找到卡马克的身影
为什么说这样的例子和卡马克今天的选择
有某种必然的联系
因为卡马克这样的人,会觉得
在某个领域,重复其他的人的工作
不是乐趣与成就最大的事情
而是应该尽自己的所能
去开创道路,点燃某种最初的火种
不乐于延续其他人的道路
《论语·为政》篇中
孔子说「五十而知天命」
有一层意义,是人到了这个时候
应该找到自己在世界上的定位
卡马克正好在这个年龄
所认知到的天命
就是尝试去点燃火种
如果努力了没有做到
也并没有遗憾
很多媒体在转述他的访谈的时候
故意起标题说「卡马克否定 GPT 的未来」
这其实就是一种很狭隘的小人之心
不理解曾经在领域点燃过火种的人
再次投身新的技术实践时
心中的所思所想
蒜头这样的人
天赋不够
没有办法做出开创的成就
就好好当一个传火者
去纠正这些媒体的狭隘
如果理解了上面的这一点
明白卡马克对于人工智能形态理解的出发点
那么今天的提到的第二点
也就是他对于领域的技术推动力的认知
也就很好理解
在技术领域点燃火种之后
这种火种会作为原初的推动力
形成跨越时间轴的多米诺骨牌
上个世纪九十年代是一个关键的年代
卡马克的电子游戏和黄仁勋的 NVDIA 初创公司
在这个年代互相成就
因为卡马克实现的电子游戏三维图形方法论
诞生出了最早的对于三维图形特定计算的需求
因为这种需求,诞生了 NVIDIA 最早包装这些
算法的的 GPU 产品
其实可能当时谁也没有想到
因电子游戏而生的专用硬件产品
会在将近二十年后掀起区块链和人工智能的风暴
在这一点意义上来说
历史上很多时刻的第一推动力皆始于微末
这也就是蒜头为什么认为
计算机领域和电子游戏领域本身就互为表里
密不可分
任何想要把电子游戏向其他的 领域做更近的解读
而要去割裂计算机领域的那些议题
都过于不负责任
所有排斥乃至否认计算机领域底层逻辑的
一切电子游戏设想和论断
都必然存在根本的错误
包括蒜头播客里几乎是每星期都要重复批判的
那些伪概念、过时概念
在我看来
卡马克构想的
或者说期望的未来路径
和大语言模型实践
是考量角度不同的两种选择
大语言模型的实践是基于延续的当下
而卡马克期望中的,由少量开发者去构建的新体系
则面向某种跳跃后的未来
他基于自己的人生经历
去相信这种始于微末的跳跃可能性
其实无可厚非
基于分散公共算力的自我成长智能体
如果真的能去对应基于集中私有算力的特定训练智能体
我也期待这种技术路线的丰富性
未来不是有唯一解
这样才对更多的人更加的宽容
当然也有一种观念说
随着算力集中,模型规模的提升
个人的天才创意在知识体系中的推动将越来越少
直至趋近于无
在这一点上
我作为辩证唯物主义者

