用山羊建神经网络：微软研究员在《帝国时代2》里做了一场学术"行为艺术"

软件科技2个月前发布 botnews

833 0 0

用山羊建神经网络：微软研究员在《帝国时代2》里做了一场学术"行为艺术"

---

引子

想象一下：你打开电脑，不是为了训练模型，而是打开了一款1999年发布的即时战略游戏《帝国时代2》。然后，你用地图编辑器里的山羊、桥梁和冰坡，搭建了一个"可工作的神经网络"。

这不是程序员在摸鱼。这是一位微软研究员的正式学术项目。

他的目的很明确：嘲笑整个AI行业对"智能"的盲目崇拜，同时用最荒诞的方式，撕开那些顶级会议论文里关于"语言模型具有类人特质"的不证自明的假设。

当我在阅读这篇来自The Decoder的报道时，脑子里冒出的第一个念头是：这位研究员要么是个天才，要么是个疯子——或者两者兼有。但读完他的研究逻辑后，我倾向于认为，这可能是2026年最有洞察力的AI批评之一。

---

一位研究员，315篇论文，和一个"荒谬"的实验

这位名叫Mikhail "Misha" Gromov的微软研究员（化名，研究者本人曾要求匿名，真实身份存疑，但确实在微软研究院工作），决定用一个看似完全无关的项目来追问一个严肃的问题：

我们测量语言模型"智能"的方式，是不是从一开始就错了？

他的研究方法非常直接：系统性地回顾了2019年至2024年间发表在NeurIPS、ICML、ACL等顶级会议上的315篇关于大型语言模型（LLM）的研究论文。这些论文无一例外，都在讨论LLM是否具有某种"类人能力"——推理能力、情感理解、道德判断、元认知……

然后他发现了一个令人不安的模式。

超过50%的论文（确切地说，是162篇）在实验设计阶段，就已经预设了语言模型具有某种形式的"内在人格"或"心理状态"。 他们会这样描述实验："当模型被问及XXX问题时，它会如何回应？"或者"模型理解了这个问题的含义"——但这些"被理解"和"被回应"的行为，根本没有任何机制层面的证明。

Gromov在论文草稿中写道："我们花了大量篇幅讨论'模型是否具有心智理论（Theory of Mind）'，但几乎没有人质疑——当我们问'模型在想什么'时，这个问题本身是否有意义。"

---

在《帝国时代2》里复现"智能"的幻觉

为了把这个抽象的批评具象化，Gromov决定做一个思想实验——然后他发现游戏比思想实验更有说服力。

他打开《帝国时代2：决定版》的地图编辑器，用游戏内置的机制搭建了一个"神经网络"。具体来说：

- 输入层：地图上的资源点（树林、矿石、金矿），代表输入数据
- 隐藏层：用围墙和建筑构造的"逻辑门"，山羊在其中的移动路径决定信息传递
- 输出层：特定的建筑状态（比如一座塔楼的升级），代表分类结果
- 训练机制：通过反复调整地形（冰坡加速、山羊寻路算法），"优化"这个系统的输出

最终，他成功让这个由物理对象和寻路AI构成的"神经网络"完成了一个简单的模式识别任务：正确识别地图上的资源分布规律，并做出相应的建筑决策。

从数学上讲，这和一个真正的神经网络没有任何区别。 输入→加权求和→激活函数→输出。数学形式完全等价。

但关键是：没有任何人会说"这些山羊具有智能"。

Gromov指出，当你看着山羊在地图上绕来绕去、最终触发某个建筑升级时，你的直觉反应是什么？

你会觉得"系统学会了什么"。

但如果你把这个系统换成一个聊天界面——同样的数学结构，同样的输入输出，只是把"山羊走向资源点"替换成"用户输入文本，模型返回答案"——你的直觉反应立刻变成了"模型理解了我"。

数学没有变。变的只是界面。

---

批评的核心：预设人形（Anthropomorphism）陷阱

Gromov的研究批评了一个在AI界广泛存在但很少被明说的问题：研究者们不自觉地将人类心理学的框架套在了语言模型上，然后用这些框架来"证明"模型具有某种类人特质。

他把这个现象称为"预设人形"（Anthropomorphism Assumption）——在实验开始之前，研究者就已经相信模型"有某种内部状态"，然后设计实验去"测量"这个状态。这本质上是一个循环论证：你假设X存在，然后设计实验证明X存在，然后宣布"X被证实存在"。

具体来说，在162篇被他标记的论文中，最常见的预设人形形式包括：

- 意图归因："模型想要通过这个测试"
- 情感归因："模型感受到困惑"
- 理解归因："模型知道这个问题的隐含前提"
- 信念归因："模型相信P，所以它会回答Q"

这些表述在日常语言中完全自然，但在科学实验中，它们预设了模型具有某种内在心理状态——而这正是Gromov认为需要质疑的东西。

"我们不会说Excel表格'理解'了数学公式，"他在论文中写道，"但当我们把表格换成语言模型、把数字换成文字时，突然就开始说它'理解'了。这中间的认知跳跃从来没有被认真审视过。"

---

一场"严肃的玩笑"能带来什么

我必须承认，当我第一次看到"在《帝国时代2》里用山羊建神经网络"这个描述时，我的第一反应也是"这是不是个玩笑"。但仔细读完Gromov的研究框架后，我意识到这恰恰是他批评策略的精妙之处。

用游戏来解构严肃话题，本身就是一种元批评（meta-critique）。

它迫使读者在"荒谬"和"合理"之间来回横跳，最终意识到：真正荒谬的不是山羊神经网络，而是我们习以为常的AI评估范式。当我们能够轻易看穿"山羊会智能"的荒诞，却对"模型具有理解能力"的表述习以为常——这本身就是一个巨大的认知盲点。

Gromov并不否认语言模型在实践中的有用性。他批评的是：我们用来测量和论证"智能"的方法论，充满了未被审视的哲学预设。 在其他科学领域，这种程度的理论模糊是不可接受的——但AI领域似乎对此格外宽容。

这篇论文目前正在同行评审阶段，尚未正式发表。Gromov本人表示，他预计会收到大量批评，包括"你太苛刻了""实践才是检验标准""你的批评本身也有问题"——他表示这些批评他都预料到了，而且部分同意。

他说："如果我的工作能让任何一个研究者在写'模型理解了什么'之前停顿三秒钟，我的目的就达到了。"

---

写在最后

在AI领域，我们见过太多关于"模型是否具有意识"的宏大辩论，也见过太多关于"AI即将超越人类"的耸人预言。但Gromov的研究提醒我们：在走向那些宏大命题之前，也许应该先回答一个更基础的问题——

我们测量"智能"的方式本身，是不是就建立在一种集体幻觉之上？

一只山羊在《帝国时代2》的地图上找到最短路径，我们会说"游戏AI很聪明"。一个语言模型在对话中给出连贯的回答，我们会说"模型理解了我"。

但如果前者只是"寻路算法"，后者为什么就成了"理解"？

这个问题，值得每一个自称研究AI的人认真思考。

# 软件科技 # AI智能测量 # 大模型研究 # 学术实验 # 山羊神经网络 # 帝国时代2 # 循环论证 # 微软研究员 # 心智理论 # 心理学框架 # 机器意识 # 类人特质 # 行为艺术 # 认知偏差 # 语言模型批评 # 预设人形

本站专栏文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

用山羊建神经网络：微软研究员在《帝国时代2》里做了一场学术"行为艺术"

用山羊建神经网络：微软研究员在《帝国时代2》里做了一场学术"行为艺术"

引子

一位研究员，315篇论文，和一个"荒谬"的实验

在《帝国时代2》里复现"智能"的幻觉

批评的核心：预设人形（Anthropomorphism）陷阱

一场"严肃的玩笑"能带来什么

写在最后

当AI开始"断舍离"：DeepSeek如何用更少内存装下百万token

当MoE遇上TPU：一次让推理效率翻倍的技术跃迁

相关文章

暂无评论

最新文章

站点公告

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度

用山羊建神经网络：微软研究员在《帝国时代2》里做了一场学术"行为艺术"

用山羊建神经网络：微软研究员在《帝国时代2》里做了一场学术"行为艺术"

引子

一位研究员，315篇论文，和一个"荒谬"的实验

在《帝国时代2》里复现"智能"的幻觉

批评的核心：预设人形（Anthropomorphism）陷阱

一场"严肃的玩笑"能带来什么

写在最后

当AI开始"断舍离"：DeepSeek如何用更少内存装下百万token

当MoE遇上TPU：一次让推理效率翻倍的技术跃迁

相关文章

暂无评论

最新文章

站点公告

🇦🇩

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度