中午好,今天是 2023 年 11 月 11 号
蓝色蒜头的短播客第 23 期

今天继续昨天的话题
来科普从技术手段上来说

怎样用大模型处理专业领域的内容工作

为了内容的连贯性,可以先去听前面两期播客
所有这些内容
我以若干期播客的形式讲完大致脉络后
结合反馈意见
会以更加直观的视频形式发在我的主频道上

我们还是以《王国之泪》的
速通教程翻译为例来继续往下说

昨天提到可以把所有的专有名词对照
以术语表的形式附在每次的要求里
一起发给大模型

从具体实践上来说
这种完整的翻译术语表
其实有比较简单的准备方法

就是直接从游戏解包数据里
去导出各种语言的本地化文本
就能很容易的获得任何两种语言的
游戏特定用语翻译对应

这件事情我也做过了
从解包数据里能导出的内容
包括游戏剧情任务对话的各种语言文本
也包括游戏专用词汇的各种语言文本

其中王国之泪专用词汇文本有 3221 条
整理成中英文对照的形式
加起来会有九万多字节

显然这种长度
已经不可能一次发给大模型

所以就要开始用到合理的分解方法

因为昨天说过大模型其实没有记忆
所以分解有一个基本的原则
那就是分解出来的任务之间
不能有前后的相关性

这样,才能一个个的把小任务
给到大模型来实现

以翻译工作来说
把要翻译的原文
拆分成一个个小段落
逐段来翻译,就符合这种分解原则

接下来要解决的问题是
每一个小段落的翻译
我要附加上什么样的参考资料给它

前面说到专有词汇对照有 3221 条
其实不用全部给它

只要做一个检索工作
判断现在要翻译的小段落里
包括哪些专有词汇

然后只把这些专有词汇单独拿出来就可以了
一个三五百字的小段落里
可能只会用到二三十个专有词汇

这样原文段落加上单独检索出来的参考对照表
长度就不会很长了
不超过一次请求的长度上限
就可以让大模型顺利的处理下去

对于翻译工作而言
这种检索工作也不难
只要把待翻译段落按照词汇一个个切开
然后去专有词汇里找
哪些用到了,只把用到的提取出来

让工程师写一个很简单的检索程序就可以做到

但很多时候,并不是做翻译这么简单的工作
如何去找到和当前要处理的任务相关的资料
这件事,就比较麻烦了

比如说,我想做这么一件事情
对于一些热点时事,社会事件

想去做综合的分析解读
其中可能会包括法律方面的解读

怎么从事件本身去匹配上有关系的法律条文
或者相关案例
就比翻译时找对照词汇要难的多

这里就没有什么通用的方法了
现在在各种专业领域
为了完成这种特定任务和对应参考资料的匹配工作

都需要开发人员
和非常懂这个领域的人,也就是常说的领域专家
两类人通力合作

去构建特定的
方便检索的知识库

以王国之泪游戏速通
这么一个非常小的细分领域来说
我就是开发人员
我在速通交流群和 discrord 频道
找到的愿意一起探讨这件事情的人
就是非常懂的人

我们一起整理的中英文 glitch 收集表
就相当于这种知识库

当然这只是一个非常简单的举例
实际中各种领域的知识库
可能会非常庞大
构建的方式,内容组织的方式也各不相同

以法律领域来说
大陆法系的各种法典原文
海洋法系的案例库

组织成知识库,结构是不一样的

医学领域来说就更繁琐了
疾病定义、症状定义、药物名录、各项生理指标解释
可用的治疗或手术手段,等等
需要分门别类的去组织

当然,好在在有大模型之前
很多这种知识库已经开始构建了
比如医学领域的 snomed ct 术语库

就组织的非常细致
把各种医学概念分成了十几个层级
可以以不同的维度去做检索

游戏领域来说
有很多的游戏 wiki
例如 minecraft 泰拉瑞亚
都有非常详细的,一直有人维护的 wiki 内容

这些内容,都是在很久之前开始构建
到了大模型时代,就能以新的方式发挥作用

但现实问题当然没有这么简单

以下几个问题在很多地方还是急需解决

第一,如果具体到我这个领域
目前还没有专业的资料库
比如王国之泪的速通
或者别的什么游戏的速通
光看对应游戏的 wiki 是远远不够的
因为游戏 wiki 上不会包括速通用到的技巧、邪道、路线资料

在各种其他领域
到了特定人擅长处理的具体问题
领域资料库其实都是不够的

所以,需要探索一个方法
去持续的构建并完善一个小型知识库
最好还不要花太多的额外精力

因为大家都很忙
最好随着正常的日常工作推进
这种知识库就能自动构建

并且,对于各种小领域的知识库
内容组织结构该怎么设计
也是一个很难的问题
目前没有通用的结论

第二,上述手段
对于翻译、解释、搜索
这些逻辑性不复杂,一步就能完成的工作
经过优化已经可以逐步够用了

但是,真正更有帮助的工作还不能做
比如说

能不能实现一个速通教练
从零开始以向导的形式
一点点把路线,邪道
以文字说明 + 视频演示的形式
教给想学习速通的玩家

也就是把静态的死的速通教程
做成可以交互,可以提问答疑的
速通老师

能不能实现一个资料整理小能手
每天在 discord 或者交流群里
盯着大家的聊天
一旦出现了新发现的邪道和技巧
经过比较和判断,就自动记录下来

甚至,能不能和人工智能去探讨
目前的整个路线规划还有什么可以改进的地方
甚至让人工智能去设计 100% 速通
这样超长的路线规划

上面说的这些
相信才是大家对于人工智能
真正的期望

目前达到这些期望并不容易

怎么样让大模型在具体领域
不仅是能做到理解相关知识
还能够帮助思考

其实也就是现在很多人
都在做探索实践的事情

为了能够实现这些方向
经过过去大半年的思考尝试

人们提出了 agent 代理模式、思维链
以及用多个代理形成多智能体,构建虚拟团队

来尝试部分的满足上述需求

从这里开始
涉及到的计算机开发概念就会越来越多
说实话,用比较通俗的方式去讲也越来越难

但我会在播客里先尝试去讲
这样我之后做视频的时候
就会知道怎么去做调整

明天如果没有其他话题
我会在接下来的播客里
继续科普什么是代理模式和思维链

如果一期说不完,就继续拆分

好的,今天就聊到这里
祝大家进步,周末愉快,再见!