bilibili.com/video/BV1hK411t72k

晚上好，今天是 2023 年 12 月 26 号
这里是蓝色蒜头的音频短播客节目第 55 期

蒜头的这个频道每天的主要话题
集中在电子游戏、信息技术两个大的方面
以及偶尔讨论一些非当下的社科话题

今天的内容接着第 51 期
51 期讲到，人工智能存在多种多样的表现形式
并且在很多方面开始渗透生活

在这种现实趋势下
未来人类的行为势必和这些智能体共存

这里我用了智能体这个词
因为人工智能并不是一个绝对的整体概念

它会以不同的形式，不同的载体
完成不同的任务

为什么说 2023 年是一个很重要的年份
以及为什么说以 openai 为代表的 chatgpt
对于 AI 领域非常重要

其重点并不在于很多媒体塑造的
它多么像人，多么会聊天
也并不是说它这个也会那个也会

很多朋友对于 chatgpt 这样的大语言模型的尝试
经历了媒体宣传带来的新鲜
刚接触的简单聊天带来的惊讶

这种惊讶必然是有的
因为相比于过去的任何以对话形式
呈现的智能体而言

都明显更加自然流畅

而这些朋友可能很快会发现
一旦对它建立了一些初始信任
开始尝试直接使用它
处理一些与特定领域相关的任务
或者解答相关问题

是比较不理想的

这其中有它的训练数据不足或过时的原因
也有使用方式方法上的原因

这些我在前面的很多期播客也都讲述过
就不再重复

大语言模型在 2023 年真正推动的 AI 实践
不在于它本身多么会聊天
在聊天这一点上多么像人
也不在于它最终能通过训练掌握多少知识

而是计算机领域
在实践中发现
大语言模型能够
有效的完成散碎的智能体的整合

自 2016 年阿尔法狗横空出世以来
各种智能体频繁诞生
也就是 51 期里我们举例的
那些文字识别、美颜、自动驾驶
等等智能体形式

这些智能体的运作方式
目前来说仍然是应用式的
他们目前被调用的方式
更多的是嵌入在 PC 或者手机的单独应用程序里
作为一种程序功能

上个世纪 90 年代中期 windows 95 发布
代表着整个主流的消费计算机领域
进入图形化时代

自那以后，通过图形界面
以直观点击的方式打开应用程序
成为了人们使用计算机设备的最直观方式

2007 年之后，智能手机时代拉开序幕
并且又改变了人们对于电子设备的
认知、使用习惯和依赖性

但不管是图形化的计算机操作系统
还是智能手机
「通过某种直观点击打开应用程序」
这个形式本质上没有发生变化

在无数信息产业从业者的努力下
计算机，包括桌面 PC，和移动设备
以及更广义上的穿戴设备，智能家电
能提供的功能已经非常的多

但是人们去使用这些功能的方式方法
只要前面说的形式没有改变
就依然非常笨拙

其根本问题在于
以应用程序来包装的计算机功能
本身是互相区隔开的
为了使用不同的功能
就需要人主动的在程序之间切换

这就导致一个结果
哪怕应用程序种类再多
功能再丰富

人们始终可能在要使用
很简单的功能的时候手忙脚乱

现在在听播客的朋友
不妨回忆一下
你是不是会有时候想要做一些简单的计算
然后在手机里来回翻找计算器的图标

或者做其他事情到一半
把手机滑回第一屏，点日期进日历考虑时间规划
或者点天气看未来的预报

设备功能越来越多的同时
有时我们为了完成一些稍微复合一些的工作
就需要在应用程序间来回频繁的切换

很多应用可能是考虑到这一点
会把一些常用功能都做进去
所以你会看到微信从小而美变成了大而丑
美团从最初的团购变成了包括外卖、订票、点评等等

无论这些应用怎么内嵌功能
本质上其实是没有区别的

用户仍然需要做切换
对于用户来说
在应用之间切换，和在应用内的功能里切换
体验上并没有什么不同

况且，一个应用里的功能
做的可能没有另一个应用好
最后反而是带来了麻烦和不协调

这样的切换
其实是不符合人的生物直觉的
只不过是在过去将近 30 年的时间里
一两代人通过训练形成了默认的使用习惯

人与人协作的时候
面对与你协作的团队成员
可能一名成员擅长写作、绘画、和做手工
假如你们一起布置节日庆祝现场
这些能力会综合起来使用
但是你和他的沟通并不会是频繁切换进行的

不会说，请你切到画画模式
请你切到折纸模式
大家会在一个很平滑的沟通中
甚至一边玩闹中去完成这些任务

这中间其实调用了人的各种能力
包括讲笑话当然都是能力
但是你不会主动去要求能力的切换
而是能力自动适配当前的场景
或者用术语来说，当前的上下文

你们的布置工作进行到一半
发现气球不够
要去买一些气球
交谈中，大家临时在心算买多少个气球需要多少钱
人的心算能力非常弱
但是可以平滑的使用，不需要进行特意的切换

当代的计算机已经很强了
但是进一步影响人类使用计算机的核心症结之一
就在于，它的功能调用依然是彼此独立的
依然是要进行切换的

2023 年的大语言模型带来的可能性
不在于它多么会聊天
或者不在于它本身通过训练能吃下多少更多的数据

而是在于，通过 2023 年整个业界的探索
目前通过大语言模型来组织多智能体
的这种使用形式
让人们看到了未来去除「切换」的一种可能

大语言模型的多智能体方法论
简单来说，就是以大语言模型作为整体的组织
以及作为和人类交互的接口

这种交互不仅是聊天，也可以是拍照
文件上传，听语音，以及计算机拥有
而人类本身没有的传感器
例如红外线接收

通过一个甚至多个模型
去把对于功能的调用过程进一步隐藏在交互过程之后
让用户察觉不到切换

这些功能可以是过去的传统功能
例如计算器
可以是一些独立的智能体模型，例如文字识别，美颜
也可以是其他的专门训练的大模型

在整个的交互过程中
可能负责交互的智能体其实也进行了替换
但是用户不会有明显感知

举一个例子吧
假设我在做游戏攻略
需要用到一些素材
我截取了一张包含道具图鉴的游戏截图
然后根据道具图鉴把所有道具名称和图标截取下来
分别保存成文本文件和图片

哪怕有图片文字识别程序
以及自动匹配大图片上的小图标的程序
理论上，在计算机的功能支撑下
其实并不用一个个对着图片抄写文字
以及一个个去抠图标

但是这些程序是不同的应用
应用的切换加上每个应用的掌握门槛
最后，一件简单的事情，还不如自己用笨方法做得快

计算机的应用式设计
导致它在做专门的单一的、重复进行的事情时，非常的强
但一件涉及多个环节的很简单的任务
它就特别呆板，最后还不如自己用笨方法，或者给别人做

而一个整合了多智能体的大模型
你就不用考虑文字识别、抠图标
这些具体的功能如何操作

你只要把整张截图上传给他
然后用直白的语言对他说
这是一张游戏里的道具图鉴
请你把每个道具的名称识别出来，存成纯文本
然后把对应的图标截取下来
存成图片，以对应的道具名称来命名

如果多智能体整合顺畅
你这样的沟通就能完成你期望的任务
而不是由你来切换需要的功能

你甚至可以补充任务要求
比如可以进一步说，再把这些道具名称的纯文本
保存成 JSON 或者 XML 这样的用于编程的格式
也可以平顺的做到

再举一个更抽象一点的例子
我提了这么一个要求
说了一句话

猫猫猫猫猫人人猫猫猫猫猫

请你根据这句话画图
这句话人其实是能直接理解的
其实就是很多猫围住了两个人嘛
再根据这个意象来画图

但是 AI 绘画程序不能直接接受这样的指令
你必须去按照它的一些提示词方式去描述画面
这中间会有一些类似规范的概念

而如果大语言模型作为外层包装
把绘图 AI 包含在其中
而有另一些智能体通过多种方式来判断或者
猜测猫猫猫猫猫人人猫猫猫猫猫
是想表达什么画面
然后就可以把这些猜测转化为绘图 AI 能接受的描述
给到他以产生结果

其实就是默默的，以多种不同的尝试调用了
多种不同的功能组合，最终再选择最可能的一些结果

人在这个过程里感受不到功能的切换

上面两个例子并不是我的主观臆造
2023 年的大语言模型结合多智能体
在很多情况下已经可以很好的支持这样的用法

使用各种模型提供的的编程接口
我都结合自己的一些设想组装
进行过相关的尝试

这样的组装，对于一个开发者而言
本身没有什么编程难度
但是要求对于任务需要的能力有具体的认知

一旦这套模式被开发者普遍接受
并且在很多具体的任务上证实可行
且能提供巨大的变通灵活度

那么很快，应用程序的开发工作
就会迅速变为对大语言模型的智能体适配

以大语言模型作为包装与粘合
用以过去不同的思维
开发新的应用，以及重新构造旧的应用
今年所有的事情，包括媒体的所有渲染

都可能只是序幕前的人声嘈杂
甚至算不上开始的开始

其实在很多企业内部
对于大语言模型的称呼有一个更准确的说法
叫做「大语言底座」

这个说法就更好的说明了大语言模型的定位
它就像一个底座那样，上面可以承载各种形式的智能体
让他们以不同于过去的应用切换的方式
来协同运作

我现在很难去具体预测这一轮的演化之后
我们面对的 AI 形态以及各种设备的使用方式会有哪些变化
但有一点肯定成立，就是我们今天说的
我们会忘掉「应用切换」这件事情
计算机的复杂性
会进一步隐藏在新的层次的背后

今天就聊到这里
祝大家进步，年末顺利，晚安，再见！

DAY-55 夜话：AI 引领的进步，在于打破应用切换