三月大爆炸:Claude Mythos泄露、Sora停服、ARC-AGI-3全员不及格
2026年3月最后一周,六大事件同时引爆AI圈:Anthropic因CMS配置失误泄露下一代旗舰模型Claude Mythos;OpenAI关停Sora视频应用;ARC-AGI-3基准发布,所有前沿模型得分低于1%;Zhipu GLM-5.1以极低成本接近Claude Opus 4.6编码水平;Cursor Composer 2被曝核心技术源自月之暗面Kimi K2.5;Gemini 3.1 Flash Live上线实时语音代理。这是AI行业史上新闻最密集、影响最深远的一周之一。
## 背景:史上最密集的AI新闻周
2026年3月最后一周,六件本可各自主导新闻周期的事件在72小时内密集爆发。这不是偶然的新闻堆积,而是前沿模型能力、基础设施标准化、开源竞争与监管压力四条主线同时触顶的集中体现。以下是完整复盘。
## 1. Anthropic Mythos泄露:最贵、最危险的AI模型
3月27日,Fortune报道称,Anthropic因内容管理系统默认配置错误,将近3000个未发布资产置于可公开检索的数据存储中。其中包括一篇描述新模型 Claude Mythos(内部代号 Capybara)的草稿博客文章。
纠正网络传言:多个YouTube频道称Mythos是十万亿参数模型,但Fortune、The Decoder、Techzine、Futurism等原始来源均未提及任何参数规模,泄露文件中也无此数据。Capybara是产品等级代号,Mythos是模型名称,两者指向同一系统。
关键细节:
- 定位:Capybara/Mythos位于Claude Opus之上,是Anthropic目前最高等级产品线
- 性能:草稿称其在软件编码、学术推理、网络安全测试上均大幅领先 Claude Opus 4.6
- 成本警告:Anthropic罕见承认该模型对我们来说极其昂贵,对用户也将极其昂贵
- 网络安全能力:草稿写道,该模型预示着即将到来的一波能够以远超防御者速度利用漏洞的模型浪潮。Stifel分析师 Adam Borg 警告其有潜力成为终极黑客工具,能将普通黑客提升至国家级对手水平。消息传出后,全球网络安全股次日集体下跌。
影响评估:这是AI行业迄今最敏感的意外泄露事件之一。它证明前沿模型能力已进入需要严肃对待双重用途风险的新阶段,将加速各国立法机构对AI安全评估标准的讨论。
## 2. OpenAI关停Sora视频应用
3月24日,OpenAI宣布停止Sora视频生成应用的API服务,同期推出Codex插件系统。
Sora自2024年发布以来技术演示备受瞩目,但商业落地未达预期。此次关停标志着OpenAI将资源重心从视频生成转向代码与智能体基础设施。市场竞争者 Runway、Kling 在过去12个月已大幅追近,关停时机具有策略意义。
## 3. ARC-AGI-3:前沿模型全部低于1%
ARC Prize Foundation 发布ARC-AGI-3,专为测量真实智能泛化能力设计的交互式基准。包括GPT-5.4、Claude Opus 4.6、Gemini 3.1在内的所有前沿模型,得分均低于1%。
意义:ARC-AGI基准是检验真正推理能力的试金石。前两代已被AI模型通过,第三代引入更苛刻的动态交互场景。这一结果有力反击了AGI已到来的论点,说明当前LLM在抽象规则归纳与样本高效泛化上依然存在根本性缺口。
## 4. Zhipu GLM-5.1:极低成本逼近Claude顶级水平
中国AI公司智谱AI发布GLM-5.1,在编码基准上达到Claude Opus 4.6性能的94.6%,但API成本仅为后者的一小部分。
结合DeepSeek V4、Qwen 3.5等同期发布,3月已有超过12个主要模型发布。单一模型策略正式宣告过时,企业采购将转向多模型混合架构。
## 5. Cursor Composer 2核心曝光:月之暗面Kimi K2.5,并非自研
Cursor IDE 的 Composer 2功能被曝其底层核心来自月之暗面 Moonshot AI 的 Kimi K2.5,而非Cursor自研专有模型。
这一披露引发开发者对AI工具供应链透明度的广泛讨论。对企业用户而言,用哪家产品实际上等于向哪家模型提供商暴露代码库,数据处理路径与模型溯源已成不可忽视的合规议题。
## 6. Gemini 3.1 Flash Live:实时语音代理新里程碑
Google DeepMind 发布 Gemini 3.1 Flash Live,专为实时语音代理场景优化,延迟与流式响应能力有显著提升。这是Google在智能体基础设施竞争中继MCP生态布局后的又一关键落子。
## 整体判断:三月是AI竞争格局的分水岭
1. 模型发布周期压缩至周级:GPT-5.4(3月17日)、Gemini 3.1(3月20日)、Grok 4.20(3月22日)、Mistral Small 4(3月3日),23天内四大旗舰密集发布,实验室之间的技术差距已缩短至数周。
2. MCP基础设施成熟:3月MCP安装量突破9700万,开发者工具层标准化已成既成事实,智能体生态切换成本大幅提高。
3. 开源追赶速度超出预期:GLM-5.1、DeepSeek V4、Qwen 3.5三家在同一月内逼近闭源旗舰,成本优势将倒逼定价体系重构。
4. 能力边界引发监管前置:Mythos泄露将直接加速各国AI安全监管落地节奏,特别是网络安全能力的双重用途评估框架。
5. 真正的AGI测试依然未过:ARC-AGI-3结果是当前最重要的清醒剂,提醒业界真正的智能泛化能力尚有巨大鸿沟。
本文综合 Fortune、LinkedIn AI Week、DigitalApplied、AIFOD、LLM Stats 等多源报道整理,为原创中文解读。