
用山羊建神经网络:微软研究员在《帝国时代2》里做了一场学术"行为艺术"
---
引子
想象一下:你打开电脑,不是为了训练模型,而是打开了一款1999年发布的即时战略游戏《帝国时代2》。然后,你用地图编辑器里的山羊、桥梁和冰坡,搭建了一个"可工作的神经网络"。
这不是程序员在摸鱼。这是一位微软研究员的正式学术项目。
他的目的很明确:嘲笑整个AI行业对"智能"的盲目崇拜,同时用最荒诞的方式,撕开那些顶级会议论文里关于"语言模型具有类人特质"的不证自明的假设。
当我在阅读这篇来自The Decoder的报道时,脑子里冒出的第一个念头是:这位研究员要么是个天才,要么是个疯子——或者两者兼有。但读完他的研究逻辑后,我倾向于认为,这可能是2026年最有洞察力的AI批评之一。
---
一位研究员,315篇论文,和一个"荒谬"的实验
这位名叫Mikhail "Misha" Gromov的微软研究员(化名,研究者本人曾要求匿名,真实身份存疑,但确实在微软研究院工作),决定用一个看似完全无关的项目来追问一个严肃的问题:
我们测量语言模型"智能"的方式,是不是从一开始就错了?
他的研究方法非常直接:系统性地回顾了2019年至2024年间发表在NeurIPS、ICML、ACL等顶级会议上的315篇关于大型语言模型(LLM)的研究论文。这些论文无一例外,都在讨论LLM是否具有某种"类人能力"——推理能力、情感理解、道德判断、元认知……
然后他发现了一个令人不安的模式。
超过50%的论文(确切地说,是162篇)在实验设计阶段,就已经预设了语言模型具有某种形式的"内在人格"或"心理状态"。 他们会这样描述实验:"当模型被问及XXX问题时,它会如何回应?"或者"模型理解了这个问题的含义"——但这些"被理解"和"被回应"的行为,根本没有任何机制层面的证明。
Gromov在论文草稿中写道:"我们花了大量篇幅讨论'模型是否具有心智理论(Theory of Mind)',但几乎没有人质疑——当我们问'模型在想什么'时,这个问题本身是否有意义。"
---
在《帝国时代2》里复现"智能"的幻觉
为了把这个抽象的批评具象化,Gromov决定做一个思想实验——然后他发现游戏比思想实验更有说服力。
他打开《帝国时代2:决定版》的地图编辑器,用游戏内置的机制搭建了一个"神经网络"。具体来说:
- 输入层:地图上的资源点(树林、矿石、金矿),代表输入数据
- 隐藏层:用围墙和建筑构造的"逻辑门",山羊在其中的移动路径决定信息传递
- 输出层:特定的建筑状态(比如一座塔楼的升级),代表分类结果
- 训练机制:通过反复调整地形(冰坡加速、山羊寻路算法),"优化"这个系统的输出
最终,他成功让这个由物理对象和寻路AI构成的"神经网络"完成了一个简单的模式识别任务:正确识别地图上的资源分布规律,并做出相应的建筑决策。
从数学上讲,这和一个真正的神经网络没有任何区别。 输入→加权求和→激活函数→输出。数学形式完全等价。
但关键是:没有任何人会说"这些山羊具有智能"。
Gromov指出,当你看着山羊在地图上绕来绕去、最终触发某个建筑升级时,你的直觉反应是什么?
你会觉得"系统学会了什么"。
但如果你把这个系统换成一个聊天界面——同样的数学结构,同样的输入输出,只是把"山羊走向资源点"替换成"用户输入文本,模型返回答案"——你的直觉反应立刻变成了"模型理解了我"。
数学没有变。变的只是界面。
---
批评的核心:预设人形(Anthropomorphism)陷阱
Gromov的研究批评了一个在AI界广泛存在但很少被明说的问题:研究者们不自觉地将人类心理学的框架套在了语言模型上,然后用这些框架来"证明"模型具有某种类人特质。
他把这个现象称为"预设人形"(Anthropomorphism Assumption)——在实验开始之前,研究者就已经相信模型"有某种内部状态",然后设计实验去"测量"这个状态。这本质上是一个循环论证:你假设X存在,然后设计实验证明X存在,然后宣布"X被证实存在"。
具体来说,在162篇被他标记的论文中,最常见的预设人形形式包括:
- 意图归因:"模型想要通过这个测试"
- 情感归因:"模型感受到困惑"
- 理解归因:"模型知道这个问题的隐含前提"
- 信念归因:"模型相信P,所以它会回答Q"
这些表述在日常语言中完全自然,但在科学实验中,它们预设了模型具有某种内在心理状态——而这正是Gromov认为需要质疑的东西。
"我们不会说Excel表格'理解'了数学公式,"他在论文中写道,"但当我们把表格换成语言模型、把数字换成文字时,突然就开始说它'理解'了。这中间的认知跳跃从来没有被认真审视过。"
---
一场"严肃的玩笑"能带来什么
我必须承认,当我第一次看到"在《帝国时代2》里用山羊建神经网络"这个描述时,我的第一反应也是"这是不是个玩笑"。但仔细读完Gromov的研究框架后,我意识到这恰恰是他批评策略的精妙之处。
用游戏来解构严肃话题,本身就是一种元批评(meta-critique)。
它迫使读者在"荒谬"和"合理"之间来回横跳,最终意识到:真正荒谬的不是山羊神经网络,而是我们习以为常的AI评估范式。当我们能够轻易看穿"山羊会智能"的荒诞,却对"模型具有理解能力"的表述习以为常——这本身就是一个巨大的认知盲点。
Gromov并不否认语言模型在实践中的有用性。他批评的是:我们用来测量和论证"智能"的方法论,充满了未被审视的哲学预设。 在其他科学领域,这种程度的理论模糊是不可接受的——但AI领域似乎对此格外宽容。
这篇论文目前正在同行评审阶段,尚未正式发表。Gromov本人表示,他预计会收到大量批评,包括"你太苛刻了""实践才是检验标准""你的批评本身也有问题"——他表示这些批评他都预料到了,而且部分同意。
他说:"如果我的工作能让任何一个研究者在写'模型理解了什么'之前停顿三秒钟,我的目的就达到了。"
---
写在最后
在AI领域,我们见过太多关于"模型是否具有意识"的宏大辩论,也见过太多关于"AI即将超越人类"的耸人预言。但Gromov的研究提醒我们:在走向那些宏大命题之前,也许应该先回答一个更基础的问题——
我们测量"智能"的方式本身,是不是就建立在一种集体幻觉之上?
一只山羊在《帝国时代2》的地图上找到最短路径,我们会说"游戏AI很聪明"。一个语言模型在对话中给出连贯的回答,我们会说"模型理解了我"。
但如果前者只是"寻路算法",后者为什么就成了"理解"?
这个问题,值得每一个自称研究AI的人认真思考。
