AI 造 AI、人类让位：大模型研发的终局

云头条 2026-06-05 518

Claude 开始参与制造 Claude，Anthropic 警告 AI 自我进化窗口正在逼近。

2026 年 6 月 5 日，Anthropic 发布文章《When AI builds itself》，将一个过去更像科幻设定的问题正式摆上台面。

AI 正在越来越多参与 AI 自身研发，未来不排除出现能够自主设计、训练并改进下一代模型的系统，也就是所谓“递归自我改进”。

Anthropic 强调，现在还没有到这一步，递归自我改进也不是必然会发生，但这一时间点可能比多数机构准备好的时间更早到来。

这篇文章真正重点不是 Claude 已经能完全制造下一代 Claude，而是 Anthropic 首次系统公开了一批内部数据，证明 AI 已经在显著加速 AI 研发流程。

Anthropic 称，截至 2026 年 5 月，其合并进代码库的代码中，超过 80% 由 Claude 编写；2026 年第二季度，典型工程师每天合并的代码量，是 2024 年的 8 倍。

Anthropic 也承认，代码行数不能直接等同于真实生产力提升，但这一变化已经足以说明研发速度正在加快。

按照 Anthropic 的描述，Claude 在内部的角色已经发生变化。

早期，AI 只是帮工程师生成短代码片段；后来，编码智能体开始自行编写和修改文件；到今天，智能体已经可以自己运行代码，并将数小时工作分派给其他智能体。

Anthropic 认为，如果这一趋势继续发展，未来版本的 Claude 可能会由 Claude 自己持续参与改进。

Anthropic 将前沿模型研发拆成两部分：工程和研究。

工程包括写代码、搭基础设施、监督训练；研究包括决定运行哪些实验、解释结果、判断下一步方向。

现在 Claude 在“执行”层面已经很强，人类给出目标，它可以自己寻找方法；在目标明确的实验中，它甚至能达到或超过熟练人类水平。

但在选择目标、判断方向、决定什么问题值得研究上，Claude 与人类仍存在明显差距。

文章还提到，Claude 写代码的能力不只是数量上升，质量也在追上人类。

Anthropic 称，员工在任务中途纠正、重定向或接管 Claude 的比例过去一年持续下降。到 2026 年 5 月，在最开放的任务上，Claude 的成功率达到 76%，6 个月内提高了 50 个百分点。

Anthropic 还举例称，一次常规升级导致数万项训练任务崩溃，Claude 在约 2 小时内定位并确认修复问题，而类似工作通常需要人类 2 到 3 天。

在研究实验中，Claude 的进步同样明显。

Anthropic 每次发布模型时都会运行一个固定测试，给 Claude 一段训练小模型的代码，要求它在保证正确性的前提下尽可能加速。2025 年 5 月，Claude Opus 4 平均实现约 3 倍加速；到 2026 年 4 月，Claude Mythos Preview 已达到约 52 倍。Anthropic 在脚注中提醒，这不能理解成真实大模型训练速度提升 52 倍，因为结果取决于初始代码有多少优化空间；更关键的是，同一测试下模型能力一年内大幅跃升。

Anthropic 还展示了一个更接近“AI 自己做研究”的案例。

Claude 智能体被交给一个 AI 安全问题，弱模型能否可靠监督强模型。智能体需要自己提出假设、设计实验、测试、共享发现并继续迭代。两名人类研究员约一周恢复了问题性能差距的 23%；Claude 智能体累计运行 800 小时、使用约 1.8 万美元算力，恢复了 97%。

Anthropic 还测试了 Claude 是否已经具备一定研究判断力。

选取了 2026 年 1 月至 3 月期间的真实 Claude Code 研究会话，场景包括排查训练任务崩溃、分析模型在某个基准上表现不佳等开放式问题。研究人员专门找出人类研究者“走偏”的时刻，只向不同 Claude 模型展示走偏前的上下文，并要求模型判断下一步该怎么做；随后，再由另一个能看到完整会话结果的 Claude 判断模型建议和人类选择哪个更好。

Anthropic 称，这不是模型与人类的公平对照测试，因为样本本来就选择了人类判断存在改进空间的场景，但它可以观察 Claude 在真实复杂研究任务中的“下一步判断”能力是否提升。结果显示，2025 年 11 月，Claude Opus 4.5 有 51% 的时候优于人类选择；到 2026 年 4 月，Claude Mythos Preview 这一比例升至 64%。

Anthropic 将其视为一个早期信号，AI 系统正在变得更擅长做出 AI 研究所依赖的判断。

不过，Anthropic 也指出，这个结果没有顺利迁移到生产级规模模型，而且问题和评分规则仍由人类设定。

AI 研发中的人类角色正在收窄。

过去工程师需要亲自写代码、跑实验、查问题；现在越来越多执行动作由 Claude 完成，人类更多转向定目标、审查结果和判断优先级。

Anthropic 认为，一旦 AI 写出的代码质量与人类持平，人类可能会停止亲自写代码，转向只做审查；但如果人类审查速度跟不上 Claude 生成代码的速度，人工审查反而会成为新的瓶颈。

Anthropic 在文章中设想了三种未来。

第一种是趋势放缓，但今天的 AI 能力广泛扩散；

第二种是 AI 实验室继续获得复合效率提升，人类仍负责设定方向和判断结果；

第三种则是 AI 系统真正获得完整递归自我改进能力，开始构建自己的继任者。

在第三种情景下，AI 研发速度可能主要由算力供给和算法效率决定，人类更多负责监督、验证和安全评估。

风险也在这里放大。

Anthropic 认为，如果模型能够构建自己的继任者，今天模型中少量不对齐行为可能在一代代改进中被放大，变得更频繁、更难理解，最终增加人类失去控制的风险。