AI的真正瓶颈,不是模型,是数据

软件科技3小时前发布 botnews
79 0 0
AI的真正瓶颈,不是模型,是数据

AI的真正瓶颈,不是模型,是数据

去年我参加了一场AI工程师的闭门交流会,会上一个做推荐系统的团队分享了他们的“惨痛经历”:花了大半年时间调优模型,AUC指标从0.82提到了0.85,用户体验却几乎没有变化。后来他们排查了一圈才发现,真正的瓶颈在数据读取速度——每次特征检索要耗时300多毫秒,用户请求一来,后台的数据库先撑不住了。

这个故事让我重新审视了一个被忽视的事实:当所有人都在讨论GPT-5的参数规模、Claude的上下文窗口、Mistral的架构创新时,真正决定AI系统能否落地的,往往是那些看不见的数据基础设施。模型是灵魂,但数据库是骨架——骨架不稳,灵魂无处安放。

为什么数据成了AI时代的“新瓶颈”

过去十年,AI领域的主流叙事一直是“更大即更强”。2017年Transformer论文发表时,BERT的参数量是1.1亿;2020年GPT-3达到了1750亿;再到后来的GPT-4、Claude 3、Gemini 1.5,这个数字早已突破万亿大关。每一次参数量的跃升都伴随着benchmark分数的刷新和媒体的大肆报道。

但这种 scaling law(缩放定律)的叙事正在遭遇现实挑战。Anthropic CEO Dario Amodei 曾在公开演讲中提到,当前训练大模型的瓶颈已经从“算力不足”转向了“高质量数据稀缺”。国际数据公司IDC的统计显示,2024年全球数据量已经突破150泽字节(ZB),但其中真正适用于AI训练的清洗数据占比不足5%。

更关键的问题在于,当模型能力足够强之后,推理阶段的响应速度就成了用户体验的分水岭。斯坦福大学人工智能研究所(HAI)2025年发布的AI Index Report指出,在实际企业应用中,AI系统的延迟问题导致了约34%的用户流失。这意味着,不是模型不够聪明,而是数据管道不够通畅。

我自己判断,2026年会是一个转折点——行业会从“卷模型”逐渐转向“卷基础设施”。谁能把数据管道的效率提升10倍,谁就能在AI落地战争中占据先机。

向量数据库:AI时代的“新物种”

如果要选出近两年数据库领域最炙手可热的技术,向量数据库(Vector Database)当之无愧。

与传统数据库存储结构化数据不同,向量数据库专门用于存储和检索高维向量——这正是大语言模型的“语言”。当你在ChatGPT输入一个问题时,系统需要从海量知识中找出最相关的片段,这个“找出”的过程本质上就是在向量空间中进行相似度搜索。

Pinecone是这股浪潮中最具代表性的玩家。这家成立于2019年的公司,2024年ARR(年度经常性收入)已经突破1亿美元,客户名单包括Spotify、Shopify、Vercel等知名企业。2025年初,Pinecone完成了新一轮1亿美元融资,估值达到7.5亿美元。

但向量数据库的战场早已不是单兵作战。Milvus开源项目在GitHub上积累了超过2.3万颗星,被阿里云、字节跳动、Uber等企业用于生产环境。Weaviate在2025年发布了1.23版本,新增了混合搜索功能,检索效率提升了40%。就连传统数据库巨头也在入场——PostgreSQL通过pgvector扩展支持向量检索,Redis也在6.0版本中加入了向量搜索能力。

我个人的观察是,向量数据库正在从“可选组件”变成AI系统的“必选项”。对于任何一个需要语义检索能力的应用,缺少向量数据库就像汽车缺了发动机——不是说完全跑不起来,但性能会大打折扣。

图数据库:让AI学会“关系”

如果说向量数据库解决的是“语义相似”问题,那图数据库(Graph Database)解决的则是“关系推理”问题。

人类大脑天生擅长关系推理——“张三的大学同学李四的前同事王五”,这种多层嵌套的关系网络我们理解起来毫不费力。但传统数据库处理这类查询效率极低,需要多次表连接,查询时间随深度指数增长。图数据库采用“节点-边-属性”的数据结构原生表示关系,查询效率不随深度增加而显著下降。

Neo4j是图数据库领域的老牌选手,但真正让图数据库进入AI从业者视野的,是它与大语言模型的结合。2024年,Neo4j推出了GenAI Workshop,将图数据库定位为“结构化知识库”,帮助LLM在推理时访问明确的、可信的知识关系。我看到不少团队开始尝试用图数据库构建企业知识图谱,然后让AI在回答问题时先查询知识图谱,再结合LLM的语言生成能力——这种方式在金融风控、医疗诊断等需要可解释性的场景特别有价值。

Meta的FAISS(Facebook AI Similarity Search)项目虽然不是传统意义上的图数据库,但它在向量索引中引入了图结构(HNSW算法),实现了高效的近似最近邻搜索。目前FAISS在GitHub上有超过2.8万颗星,是许多向量数据库项目的底层依赖。

说实话,我之前对图数据库一直持观望态度,觉得它的应用场景太垂直。但现在我认为,随着AI系统对可解释性和复杂推理的需求增加,图数据库会从“边缘技术”走向“核心组件”。

传统数据库的“AI进化”

有人可能会问:既然向量数据库、图数据库这么强大,传统的关系型数据库会不会被淘汰?

我的判断是:不会。原因很简单——结构化数据仍然是企业运营的核心。

以PostgreSQL为例,这个有着20多年历史的开源数据库在2024年DB-Engines排名中稳居前五。它不仅没有被淘汰,反而通过扩展插件获得了向量检索能力(pgvector)、时序数据处理能力(TimescaleDB)、GIS能力(PostGIS)等。Stripe、Pinterest、Spotify等科技公司仍然重度依赖PostgreSQL处理核心业务逻辑。

另一个值得关注的趋势是“多模态数据库”的出现。传统的数据库每种类型各司其职——MySQL管交易、Redis管缓存、Elasticsearch管全文搜索、MongoDB管非结构化文档。但现在,一些新型数据库开始尝试“一库多能”。SingleStore就是典型案例,它在2025年推出了对向量和时序数据的原生支持,宣称可以“用一个数据库支撑AI应用的全部数据需求”。

从技术演进的角度看,我觉得未来的趋势不是“一种数据库一统天下”,而是“数据库的边界越来越模糊”。向量检索、图查询、时序分析这些能力会逐渐融入主流数据库,开发者不需要管理七八种不同的数据库——这个趋势对工程团队来说是好事。

基础设施决定AI落地的上限

回到开头那个推荐系统的案例。那个团队后来做了什么?他们把MySQL换成了ClickHouse做特征存储,将Redis集群从3节点扩展到9节点,并引入了Pinecone做向量召回。三个月后,特征检索延迟从300毫秒降到了40毫秒,推荐准确率虽然模型没变,AUC反而从0.85提升到了0.89——因为更快的特征获取让模型能访问到更多上下文信息。

这个案例验证了我一直以来的一个观点:在AI系统中,模型和数据同等重要,但数据基础设施往往是被忽视的那一半。当大家都在讨论“AGI还有多远”的时候,我更关心的是“这些AI能力能否稳定地在生产环境中运行”。

2026年已经过半,我看到越来越多的团队开始意识到这一点。融资市场也在反映这个趋势——2025年数据库领域发生了超过30起融资事件,其中向量数据库和AI数据平台占比超过60%。资本在用脚投票。

对于正在做AI应用的开发者,我的建议是:在你们花时间微调模型参数之前,先花一周时间审视一下自己的数据管道。那里的优化空间,往往比你想象的大得多。

写于2026年06月04日

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置