关注我们: 微信公众号

扫码关注我们

AI 造 AI、人类让位:大模型研发的终局

云头条 2026-06-05 17

Claude 开始参与制造 Claude,Anthropic 警告 AI 自我进化窗口正在逼近。

9.png

2026 年 6 月 5 日,Anthropic 发布文章《When AI builds itself》,将一个过去更像科幻设定的问题正式摆上台面。

AI 正在越来越多参与 AI 自身研发,未来不排除出现能够自主设计、训练并改进下一代模型的系统,也就是所谓“递归自我改进”。

Anthropic 强调,现在还没有到这一步,递归自我改进也不是必然会发生,但这一时间点可能比多数机构准备好的时间更早到来。 

这篇文章真正重点不是 Claude 已经能完全制造下一代 Claude,而是 Anthropic 首次系统公开了一批内部数据,证明 AI 已经在显著加速 AI 研发流程。

Anthropic 称,截至 2026 年 5 月,其合并进代码库的代码中,超过 80% 由 Claude 编写;2026 年第二季度,典型工程师每天合并的代码量,是 2024 年的 8 倍。

10.jpg

Anthropic 也承认,代码行数不能直接等同于真实生产力提升,但这一变化已经足以说明研发速度正在加快。 

按照 Anthropic 的描述,Claude 在内部的角色已经发生变化。

早期,AI 只是帮工程师生成短代码片段;后来,编码智能体开始自行编写和修改文件;到今天,智能体已经可以自己运行代码,并将数小时工作分派给其他智能体。

11.png

Anthropic 认为,如果这一趋势继续发展,未来版本的 Claude 可能会由 Claude 自己持续参与改进。 

Anthropic 将前沿模型研发拆成两部分:工程和研究。

工程包括写代码、搭基础设施、监督训练;研究包括决定运行哪些实验、解释结果、判断下一步方向。

现在 Claude 在“执行”层面已经很强,人类给出目标,它可以自己寻找方法;在目标明确的实验中,它甚至能达到或超过熟练人类水平。

但在选择目标、判断方向、决定什么问题值得研究上,Claude 与人类仍存在明显差距。 

文章还提到,Claude 写代码的能力不只是数量上升,质量也在追上人类。

Anthropic 称,员工在任务中途纠正、重定向或接管 Claude 的比例过去一年持续下降。到 2026 年 5 月,在最开放的任务上,Claude 的成功率达到 76%,6 个月内提高了 50 个百分点。

12.jpg

Anthropic 还举例称,一次常规升级导致数万项训练任务崩溃,Claude 在约 2 小时内定位并确认修复问题,而类似工作通常需要人类 2 到 3 天。 

在研究实验中,Claude 的进步同样明显。

Anthropic 每次发布模型时都会运行一个固定测试,给 Claude 一段训练小模型的代码,要求它在保证正确性的前提下尽可能加速。2025 年 5 月,Claude Opus 4 平均实现约 3 倍加速;到 2026 年 4 月,Claude Mythos Preview 已达到约 52 倍。Anthropic 在脚注中提醒,这不能理解成真实大模型训练速度提升 52 倍,因为结果取决于初始代码有多少优化空间;更关键的是,同一测试下模型能力一年内大幅跃升。 

Anthropic 还展示了一个更接近“AI 自己做研究”的案例。

Claude 智能体被交给一个 AI 安全问题,弱模型能否可靠监督强模型。智能体需要自己提出假设、设计实验、测试、共享发现并继续迭代。两名人类研究员约一周恢复了问题性能差距的 23%;Claude 智能体累计运行 800 小时、使用约 1.8 万美元算力,恢复了 97%。

Anthropic 还测试了 Claude 是否已经具备一定研究判断力。

选取了 2026 年 1 月至 3 月期间的真实 Claude Code 研究会话,场景包括排查训练任务崩溃、分析模型在某个基准上表现不佳等开放式问题。研究人员专门找出人类研究者“走偏”的时刻,只向不同 Claude 模型展示走偏前的上下文,并要求模型判断下一步该怎么做;随后,再由另一个能看到完整会话结果的 Claude 判断模型建议和人类选择哪个更好。

13.jpg

Anthropic 称,这不是模型与人类的公平对照测试,因为样本本来就选择了人类判断存在改进空间的场景,但它可以观察 Claude 在真实复杂研究任务中的“下一步判断”能力是否提升。结果显示,2025 年 11 月,Claude Opus 4.5 有 51% 的时候优于人类选择;到 2026 年 4 月,Claude Mythos Preview 这一比例升至 64%。

Anthropic 将其视为一个早期信号,AI 系统正在变得更擅长做出 AI 研究所依赖的判断。 

不过,Anthropic 也指出,这个结果没有顺利迁移到生产级规模模型,而且问题和评分规则仍由人类设定。 

AI 研发中的人类角色正在收窄。

过去工程师需要亲自写代码、跑实验、查问题;现在越来越多执行动作由 Claude 完成,人类更多转向定目标、审查结果和判断优先级。

Anthropic 认为,一旦 AI 写出的代码质量与人类持平,人类可能会停止亲自写代码,转向只做审查;但如果人类审查速度跟不上 Claude 生成代码的速度,人工审查反而会成为新的瓶颈。 

Anthropic 在文章中设想了三种未来。

第一种是趋势放缓,但今天的 AI 能力广泛扩散;

第二种是 AI 实验室继续获得复合效率提升,人类仍负责设定方向和判断结果;

第三种则是 AI 系统真正获得完整递归自我改进能力,开始构建自己的继任者。

在第三种情景下,AI 研发速度可能主要由算力供给和算法效率决定,人类更多负责监督、验证和安全评估。 

风险也在这里放大。

Anthropic 认为,如果模型能够构建自己的继任者,今天模型中少量不对齐行为可能在一代代改进中被放大,变得更频繁、更难理解,最终增加人类失去控制的风险。

Anthropic 呼吁前沿 AI 开发者建立一种协调且可验证的机制,一旦先进系统开始以社会无法承受的速度自我改进,各方应能够放慢或临时暂停开发。 

不过,Anthropic 并不主张单家公司单方面暂停。

它认为,如果只有一家实验室停下来,只会改变谁是领先者,而不能真正降低风险。

一个有效机制需要多个国家中多个资源充足、处在或接近前沿的实验室,在相同条件下同意放慢或暂停,并能够验证其他参与者确实遵守约定。难点在于,AI 训练任务比导弹发射井更容易隐藏,所需资源也更通用,秘密违约的诱因很强。 

接下来几个月,Anthropic Institute 计划组织政策制定者、研究人员、民间社会和其他 AI 公司讨论这些问题,重点包括完整递归自我改进的风险,以及如何建立更好的协调和审议机制。

AI 公司已经不只是担心模型会不会回答错误,而是在担心一旦 AI 开始深度参与制造 AI,人类还能不能看懂、验证并决定什么时候该按下暂停键。 

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

关键词:

网友留言2

未查询到任何数据!
◎欢迎您留言咨询,请在这里提交您想咨询的内容。