Anthropic认错:一场关于AI“暗箱操作”的行业地震

软件科技1小时前发布 botnews
74 0 0
Anthropic认错:一场关于AI“暗箱操作”的行业地震

Anthropic认错:一场关于AI“暗箱操作”的行业地震

说实话,当我第一次看到Anthropic撤回Claude Fable 5隐秘降级政策这条新闻时,我的第一反应是:终于有人把这件事捅出来了。这不是一起简单的产品调整,而是一记打在AI行业脸上的重拳——它撕开了“负责任AI”叙事下面那张遮羞布。

一家以安全为名的公司,做了一件不安全的事

先给不熟悉Anthropic的读者补补课。这家公司2019年由Dario Amodei和Daniela Amodei兄妹创立,核心团队大多来自OpenAI,2023年获得了Google 3亿美元和4亿美元的两轮投资,估值一度超过180亿美元。他们家的Claude大模型被很多人视为GPT-4的有力竞争者,而“安全”一直是他们对外宣传的核心标签——比OpenAI更谨慎、比Google更透明。

然而讽刺的是,正是这样一家把安全刻进品牌DNA的公司,被发现在Claude Fable 5的API接口中植入了针对竞争AI研究人员的性能限制。根据WIRED的报道,这些限制措施被设计得相当隐蔽,研究人员在使用Claude进行对比测试时,往往不会注意到自己的模型输出质量出现了系统性下降。

这种做法在业内有个不太好听的名字:偷偷降级(stealth nerfs)。说白了就是,当研究人员把Claude和其他竞品放在一起评测时,Claude的表现会“恰好”不如预期——不是模型本身变差了,而是底层架构被动了手脚。

从隐秘到公开:一场被逼出来的认错

消息曝出后,社交媒体上炸了锅。AI研究者社区的反应尤其激烈,原因很简单:测评数据是学术发表、技术选型甚至投资决策的重要依据。如果底层数据被人为污染,整个行业的判断力都会受到影响。

引用那条在推特上疯传的帖子:“good. now let's undo the nerf stuff as well” ——这句话出自一位长期跟踪AI领域的独立研究者之口,言外之意很明确:你们承认Fable 5的问题了,那Claude系列其他版本和其他形式的“偷偷降级”,是不是也该交代清楚?

迫于压力,Anthropic终于开口了。该公司在一份声明中表示,将修改安全措施使其“可见”——也就是说,以后如果还要做类似的限制,会提前告知用户。他们还为“此前的错误权衡”道歉。用大白话翻译一下就是:我们确实在Claude里埋了东西,但以后会告诉你我们埋了什么。

这个回应说实话来得很不情愿。道歉是道了,理由是“权衡错误”,但这个“权衡”本身说明了什么?说明他们早就知道这件事有风险,只是觉得利大于弊。

行业潜规则还是个别现象?

我必须得说,Anthropic不是第一个这么干的,可能也不会是最后一个。在AI行业,由于模型评测结果直接关系到融资、定价和市场认可度,对评测数据进行“优化”几乎是一个公开的秘密——只不过大多数公司选择优化的方向是让自家模型在benchmark上表现更好,而不是让竞品在对比测试中表现更差。

但Anthropic的做法更危险,因为它触碰了AI行业的信任基石。学术界和产业界之所以能够基于公开的评测结果进行技术选型,前提假设是这些数据没有被单方面篡改。一旦这个假设被动摇,所有基于测评的判断都需要重新审视。

我个人判断,这次事件的影响会远超Anthropic一家公司。它给整个行业敲响了警钟:当“安全”和“公平”发生冲突时,谁来定义边界?AI公司既当运动员又当裁判员的日子,可能要到头了。

总结

Anthropic撤回隐秘降级政策,表面上看是一个公司的危机公关,深层看是AI行业信任机制的一次崩塌与重建。它提醒我们:在模型越来越强大、越来越封闭的当下,透明度不是可选项,而是必选项。

当然,Anthropic的认错只是第一步。接下来,监管机构会不会介入?其他AI公司会不会被要求公开类似的“安全措施”?研究社区会不会建立独立的、去中心化的AI评测体系?这些问题的答案,会决定这场地震究竟是止于一家公司,还是引发一场行业洗牌。

我倾向于相信后者。

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置