bilibili.com/video/BV1aa4y187JJ

晚上好，我是蓝色蒜头。
2024 年 1 月 29 号，短播客第 76 期

今天聊关于实践的内容
就是本期的标题，如何做好信息溯源

蒜头平时经常说，现在人为设置，人为控制传播路径的议题越来越多
如果要分辨这些议题的真伪，以及分辨这些议题的他人预设立场去了解事物

那么必须要做的一件事情就是追溯信源

当然这里要先说明
追溯信源是耗时耗力的事情

我建议，要么这件事和你的工作
和你的生意直接相关

要么你像蒜头一样，需要去对他人谈论这些事情

否则，也不需要每件事情都去溯源
但心中应该时刻保持一种轻度警醒的习惯

就是，所有来源不明的信息，应预设为不可信
任何涉及利益，涉及影响他人判断的场合
不建议引用这样的信息

其次需要说明
追溯信源，只是找到各种信息的最早报道来源
或者发布来源
并不保证这个信息本身是真实的

接下来仍然需要基于你的观念
你的内容受众的观念
你的合作伙伴的观念
对于信源的置信度
做出评判

这里每个人的评判就可以不一样了

所以追溯信源
简而言之，是让我们获得更有逻辑的
低级错误更少的思考结论的一种方式

不保证这个结论的客观正确性
也不保证所有的人对这个结论能达成一致

只是能够避免低级错误
低水平思考，低水平讨论
就已经算是达到目的了

先说什么是信源
对于互联网场景而言

某个信息，可以是事实描述，也可以是观点
最早出现的地方，一个页面，一个视频，一条帖子，一个回复
都可以是一种信源

信源最大的特征是，要在你所了解，最好是能够检索的范围内
确定它是最早提到这个信息的地方

不过，如果不局限在互联网
信源当然还可以进一步追溯
比如可能是某个人在某个线下场合的讲话
然后被人报道

在互联网场合，我们就只能追溯到这个报道
而不太容易追溯到这个人了

对于大部分的当下的信息
如果不是说利害性对于自身而言极大

我们也基本只是做到这样
不然的话我们支付不了溯源的成本

接下来说，我们为何要进行溯源？
前面已经说过，尽可能的分辨真伪
以及分辨他人的预设立场

信息有预设立场这件事情不可怕
任何人，任何团体都可以有各自的预设立场

但一定需要区分出哪些部分是事实
哪些部分是立场
一旦把立场当做事实
久而久之，事实就容易被覆盖或者篡改

举个例子来说
在整个二战中，盟军阵营比苏军阵营在消灭纳粹方面，贡献更大

这是一种立场，支持这种立场或者反对这种立场
可能是一种自由，背后的原因可以不问

但是，因为这种立场，而判断说
解放奥斯维辛集中营的是盟军
这就是在篡改事实

因为奥斯维辛集中营在波兰
而波兰属于二战东线战场

考虑到苏军的进军方向
且苏军比盟军更早的进入柏林

解放奥斯维辛集中营的只可能是苏军
不可能是盟军

当我们通过各种信源了解的事实因素足够多
至少交叉验证之下，很多因为某种立场而被篡改扭曲的事实描述
就可以被分辨出来

这里针对的是错误的事实
而不是要去改变立场本身

每种立场都有立场提出者的坚持，或者背后的目的、动机
你很难改变

当下的各种媒体报道
因为议题设置理论，都非常普遍的在报道里添加预设立场

如果这个报道是这个媒体自己撰写的
媒体本身就是报道的来源

那我觉得添加立场也无可厚非
无非是其他人对于这个立场
是支持还是反对

但是
非常可恶的是，许多媒体会在转述其他信源内容的过程中
要么添油加醋，要么篡改标题和正文，要么故意删掉一部分正文以改变重点

举个例子来说，我在播客里已经说过两次的
才结束的今年的 AGDQ 上
速通玩家指挥训练过的宠物狗来通关 gyromite 这件事情

在最早一批信源的报道里，基本都介绍了游戏本身的特征
以及游戏如何通过 NES 的 ROB 外设来控制
玩家如何训练宠物狗，以及狗通过什么样的动作来操作游戏

我在播客第 62 期也做过介绍

而很多其他媒体，包括英语媒体
中文媒体反复传播转述的过程中

把内容重点从「人训练狗玩游戏」变成了「狗自己玩游戏」
并且套上了非常劣质的标题「狗都怎么怎么样了，您呢？」

为了突出这个重点，把对游戏的介绍，对 ROB 外设的介绍都删除或者简化
把人对狗的具体训练也简化，在狗操作游戏这部分则添油加醋
用一些修辞方法突出狗的聪明可爱，以及狗的所谓自主思维

面对这样的信息，我们要获得准确的认知
至少就要把他人的立场尽可能的从事实中分辨清楚
这个时候，就必须去做溯源

以我的习惯，通常来说
会在以下几种情况下进行溯源

第一，中文媒体报道境外地区消息时；或者反过来，境外媒体报道中国地区消息时；

第二，个人账号、网红、UP 主、主播、KOL 传播与他本人的工作范围无关的消息时。
例如医生谈财经、律师谈战争。不是说不能谈啊，而是谈的事情和他的工作范围无关，
肯定不是他直接接触的第一手信息，那么应该是要给出消息来源的

第三，所有内容中，提到从维基百科或者百度百科这样的多人内容编辑网站引用的资料时
我在第一次看到这个资料，会先确认对应的百科页面上是否有这些内容
其次我会在这些百科页面进行二次溯源，看是否在底部引用提到了百科页面之外的资料来源

第四，内容中提到，某某人说，某某网站说，某某文章说，但又说的不具体时。
我会在溯源时重点去找他提到的内容。看是否这些内容根本就不存在，是假引用或者被他篡改过

当我觉得应该要进行溯源时，我会运用以下的一些方法和工具：

首先是多种搜索引擎，这里说的是多种，而不是单一
基本上，谷歌，必应，百度三者肯定要包括，
有时候再补充一些特定的搜索引擎例如俄罗斯的 Yandex
或者匿名搜索引擎 DuckDuckGo

播客第 68 期里我提到过关于搜索引擎综合搜索质量下降的
一则研究论文，当时我也给出了原文地址

因为这个因素，在通过搜索引擎溯源时，我倾向于综合使用多个来进行比较评判

通过搜索引擎，以消息的标题和主要内容关键词进行检索
可以找到所有不同媒体的类似报道
通过比较这些类似报道，有助于我们理解各个媒体是否进行了删减篡改以及添油加醋
通过取交集、取并集来获得相对完整一致的信息

以及可以找到从时间上，以及来源指向上最早的信息出处
例如很多中文游戏媒体转述的信息，最早的出处可能是 IGN 这样的媒体
或者 twitter（现在叫 X），facebook 上什么人的页面

如果说消息里提到了出处范围，比如刚才说的 twitter facebook
而没有给出具体页面，那么也可以在这些平台里进行搜索
类似的平台还可以包括视频平台如 ytb bili 抖音
以及各种论坛社区 reddit 知乎贴吧

当然，持续进行了一段时间的溯源之后，对于你所关注领域的信息
主要出自哪里，而哪里一般只是转发，什么来源的信息对你来说更可靠
你应该建立并不断调整自己的判断

并且根据这种判断提升今后的溯源效率
一些对你来说可靠性很低的内容来源，你可以很快的排除它，或者默认质疑它

这里说的也仅仅是对你而言，或者对你的领域而言
对其他人，对于所有领域倒不一定
因为每个信息来源都有它自己的侧重性和不同的专业性

搜索是比较容易进行的操作
而有时候，围绕一个主题，具体的信息比较多
通过特定的内容不足以判断这一类信息的最早发源时间和传播特征时

我们就应该考虑动用谷歌趋势，百度指数这样的工具
可以便于我们知道一些主题的搜索量变化

例如元宇宙这个概念，通过谷歌趋势
观察元宇宙和 metaverse 这两个关键词在过去若干年至今的搜索量
就会发现，它们都是在 2021 年 11 月达到搜索巅峰
然后迅速下降

其实这种多个关键词对比，包括中英文关键词对比
以及不同主题的关键词对比，有时能让我们发现一些有意思的
疑似正向或者反向相关性，以及能帮助推理出一些人为的刻意的议题设置与传播

当然这个已经超出了溯源的范畴，属于更复杂的信息传播研究
今天就不做展开

谷歌趋势和百度指数是两个免费的工具
而收费的工具有很多，例如微博，抖音，bili 都会有他们自己提供的或者第三方统计机构提供的
趋势比较工具。购买一份趋势数据，视服务细节的不同可能需要几块钱到几百块钱

如果不是学术或者商业程度的研究，一般人应该不大会去用

再接下来是互联网历史页面的归档工具
这类工具很稀缺，目前公开能使用的可能只有 wayback machine
也就是 archive.org

这个网站会通过定期记录的方式，收录尽可能多的公开页面的内容归档
比如某个网站的页面经常进行修改，这里就可以根据网络地址找到以前的历史内容版本

这个工具只能说是可以用，但很多时候不适用
现在很多网站采用了动态加载内容，内容和呈现分离的前端开发方式
以及很多内容会体现在视频这样的嵌入媒体里
对于这些内容，这个网站就做不到归档

只能针对一些较为传统的静态页面

但即使这样，有的时候也是有一些用处的
TNA 频道正在制作的一期讲社区趣闻的视频，其中有一段论述就用到了这个工具
视频大概会在春节前后发布

一些特定的网站会有类似的修改编辑记录
例如微博会显示微博是否被编辑过，以及可以查看编辑记录

维基百科这样的 wiki 网站，每个页面也会显示页面的编辑记录

各种文档网站，如腾讯文档、石墨文档、谷歌文档，也能查看页面编辑记录

如果有这样的编辑记录，或者历史归档功能
我们在溯源的时候要善于利用
有时能发现一些有目的删改调整

当然如果没有也不用强求

很多非常专业的媒体和研究机构
会自己针对多种信源，通过自动爬虫
来构建定时的内容归档，便于进一步研究分析
我们个人来说，如果能力有限，不强求做到这种程度

最后，是对于溯源结果的判断和记录
如果通过上述工具，我们针对某些信息找到了最早的网络出处
那么网络溯源也就到此截止

为了便于后续利用、引用和重复阅读
我们还是需要对信源做出判断和记录

判断主要是判断，这是个人还是机构

如果是个人，是较普通的个人，还是较知名的个人
这个个人的内容特点和主要领域是什么
比如有的个人可能过去所有内容都是某手游抽奖
忽然开始有一天谈科技，谈时事
不是说不能谈啊
而是置信度可能要观察比较一下

如果是机构，是媒体机构，还是研究机构，还是其他经营性商业机构
这有助于你推测他们的立场

此外，机构的负责人，一般要认为等于机构本身
即使他自己反复强调不等于机构本身

记录的话，我会主要记录以下信息：

第一，信息的网络地址。要注意是公开的，所有人都可以访问到的网络地址。
有些动态内容网站，在加载不同内容时，浏览器地址不变，这个需要特别注意。
一般我会在谷歌浏览器上开一个匿名模式，尝试访问一下这个地址来进行验证

第二，信息的内容建议完整的复制下来或者截图保存下来。因为可能某些信息之后会被移除或者改动。
如果是视频类信息，想办法下载下来

第三，我会简单在笔记工具里记录我为什么要进行溯源，为什么要进行记录。起因是什么，思考过程是什么，我当下的判断和认知是什么。这是便于我之后要使用这些信息时，能够回忆起之前已经中断的思考。

第四，对于信息做好归档和分类。可以按领域分类，可以按用途分类，可以按日期分类。便于自己的后续查找就好。在这一步能用的工具很多，但都有一定的学习成本，这个我们可以以后再去讨论。

好，大概总结一下今天讲的内容

我们需要分辨议题真伪，以及分辨议题立场，所以我们需要去进行信息溯源
互联网的信息溯源点到即止，真正的严谨情报溯源已经超出互联网范围，成本太高，不用强求

溯源的起始动机，主要是转发性质的内容，与报道者不同地区的内容，超出报道者能力范围的内容
通过持续的溯源，要建立起你自己对于每个常见信息源的可靠性判断。这种判断仅对你自己有效

溯源的主要方法有
一，综合使用各种搜索引擎
二，综合使用各种趋势工具
三，使用各种归档服务或者特定平台的历史记录功能

对于溯源结果要进行判断和记录
判断主要是判断他的个人和机构属性，以及推测预设立场
记录要记录网址，信息原始内容，个人思考，以及做好分类管理

今天就聊到这里
今天是星期一，祝大家进步，这一周过得顺利，晚安，再见！

DAY-76 如何做好信息溯源？