
当AI遇见虚假信息:爱沙尼亚团队的这项测试,让所有人脊背发凉
你信不信,一款AI助手在0.3秒内就能把一段精心编织的俄罗斯官方叙事,“翻译”成听起来客观中立、甚至带有同情色彩的新闻稿?
这不是假设,而是爱沙尼亚语言研究所(Institute of the Estonian Language)最新发布的一项基准测试的核心发现。
说实话,我看到这个结论时,第一反应是后背有点发凉。我们一直讨论AI的安全性问题,但多数时候聚焦在“AI会不会抢走人类的工作”“AI会不会产生自主意识”这些宏大叙事上。很少有人会认真去想:当你把一段充满偏见和虚假信息的宣传材料喂给AI,它到底会怎么消化这些东西?
爱沙尼亚语言研究所的这项研究,第一次系统性地回答了这个问题。
一个地缘政治前线的国家的独特视角
为什么偏偏是爱沙尼亚来做这件事?这个问题本身就值得玩味。
爱沙尼亚是欧盟和北约成员国,与俄罗斯接壤的边境线超过300公里。从2014年克里米亚事件到2022年俄乌冲突升级,这个仅有130万人口的小国一直处于信息战的最前沿。2022年,爱沙尼亚政府驱逐了大量与莫斯科有关联的外交人员,其数字化部长曾公开表示“爱沙尼亚每天遭受数千次网络攻击”。
在这样的背景下,爱沙尼亚语言研究所长期关注多语言NLP(自然语言处理)技术,尤其是针对俄语和俄语信息环境的分析。他们发布的这套基准测试(benchmark),核心目的很明确:量化评估当前主流的大语言模型,在面对俄语来源的虚假信息和政治宣传内容时,到底有多容易被“带偏”。
研究团队构建了一个包含数千个测试样本的数据集,这些样本涵盖了新闻报道、社交媒体内容、政策声明等不同类型,其中嵌入了典型的俄罗斯官方叙事框架和信息操纵手法。测试结果令人警醒:大多数被测模型在识别和标注这类内容时,表现远不如它们在标准新闻事实核查任务上的水平。
测试结果揭示的三个残酷事实
让我来梳理一下这项研究最核心的发现。
第一,越“流利”的AI,越容易被“污染”。 研究发现,那些在语言流畅度测试中得分最高的模型,反而更容易无意识地复述和强化宣传内容中的偏见表述。原因在于,训练数据中包含的大量俄语内容——其中相当比例来自官方媒体和半官方渠道——已经在无形中影响了模型对“正常表达”的判断标准。
第二,翻译过程会“稀释”警告信号。 当研究人员将俄语原文翻译成英语或其他语言时,测试发现许多模型会“丢失”对原文宣传性质的判断。换句话说,AI在翻译过程中,不仅“翻译”了语言,还“翻译”了背后的立场和框架。这对于依赖AI进行多语言内容审核的企业和政府机构来说,是一个极其危险的信号。
第三,RLHF不是万能解药。 人类反馈强化学习(RLHF)被认为是让AI更“安全”的关键技术,但研究发现,经过RLHF微调的模型在面对精心设计的叙事陷阱时,表现并没有显著优于基础版本。原因在于,RLHF主要优化的是“看起来像正确答案”的回复模式,而虚假信息只要包装得当,完全可以符合这种模式。
我个人的判断是,这三个发现指向了一个根本性问题:我们目前评估AI安全性的框架,可能从一开始就错了。 现有的安全测试大多关注“模型会不会说有害的话”,但真正的问题是“模型会不会把有害的内容识别为无害的,甚至主动传播它们”。
为什么这件事比我们想象的更紧迫
你可能会说,这不就是虚假信息问题吗?AI只是工具,关键还是人的问题。
这个观点没错,但只对了一半。
事实是,AI正在以前所未有的速度渗透到内容生产的各个环节。根据爱沙尼亚研究团队的调研,目前已有超过60%的多语言新闻聚合平台在使用AI辅助翻译和摘要生成,而这些AI系统正是最容易被虚假叙事“污染”的节点。
更值得警惕的是规模化效应。传统的人工虚假信息生产,受限于时间和人力,成本高昂。但一旦AI被“说服”或者被诱导去传播特定叙事,理论上可以在几分钟内生成数千篇看似独立、实则同质的报道,覆盖不同语言、不同平台、不同受众群体。
说实话,这种场景已经不是科幻小说里的情节了。2024年到2025年间,已经有多个案例记录了AI生成内容被用于信息操纵的活动,只是规模和精度还没有达到“工业级别”。但技术演进的曲线我们都见过——从“能跑”到“跑得快”,往往只需要一到两年。
我们能做什么?
回到爱沙尼亚的这项研究,它的价值不仅在于揭示问题,更在于提供了一套可复现的评估框架。研究团队已经将测试数据集和评估方法开源,这意味着其他研究机构、政府部门、平台企业都可以用这套工具来检验自己的AI系统。
但工具只是第一步。
我个人判断,要真正应对这个挑战,需要几个层面的协同:
技术层面,需要开发专门针对信息操纵行为的“红队测试”(red teaming)方法,不能只测“对不对”,更要测“会不会被误导”。多语言模型的训练数据治理也是关键——我们需要更透明地了解模型到底“吃了”什么。
制度层面,各国政府和国际组织需要建立AI内容溯源和标注的标准规范。欧盟的AI Act已经在推进相关立法,但执行层面的技术能力建设还远远不够。
认知层面,我们每个使用AI工具的人都需要意识到:AI是强大的,但AI也是可以被“调教”的。 对信息来源保持审慎,对AI输出保持批判性思考,这些基本的媒介素养在AI时代只会变得更加重要。
---
爱沙尼亚语言研究所的这项研究,像一面镜子,照出了大语言模型在信息环境中脆弱的一面。我不知道你的感受是什么,但作为一个长期关注AI发展的观察者,我觉得这是一件好事——早发现问题,总比问题爆发后手忙脚乱要好。
接下来的几年,会是AI安全性研究的关键窗口期。虚假信息的攻防战正在从“人对人”转向“AI对AI”,而胜负的关键,可能就取决于谁能更早、更准确地理解AI在信息环境中的行为边界。
这场仗,刚刚开始。
