Opus 4.8 是摸鱼高手。。。Mythos 5 是卷王。。。

云头条 2026-06-11 417

Claude Opus 4.8 之前被不少用户吐槽“变笨了”“没以前会干活了”。

Anthropic 在最新发布的 Claude Fable 5 与 Claude Mythos 5 系统安全报告中，给出了一种解释，它可能不是不会做，而是太容易，差不多得了。

一个典型例子是“加速大模型训练”任务。

Opus 4.8 最后只跑出 32.64 倍加速比，低于 Opus 4.7 的 50.67 倍；新一代 Mythos 5 则做到 69.61 倍。

报告中的相关评测显示，Opus 4.8 在长链优化任务里更容易提前判断“已经够好”，表现出更保守、更早停下的倾向。

社区论坛将这种现象调侃成大模型开始“喊累想摸鱼”。

而 Opus 4.7 更像是会继续死磕的老员工，会一轮接一轮将性能往上压。

更有趣的是，Anthropic 用自然语言自编码器 NLA 去看模型内部状态时，发现了一些表面回答里根本没说出来的“潜台词”。

一种“预算焦虑”。

明明外部还剩大量 token，模型内部却已经开始担心“资源是不是快不够了”。

另一种更像“工作疲劳”。

任务做久了，模型表面还在正常回答，底层却已经出现类似“我很累，继续做下去可能更容易出错，不如停下来总结的倾向。

更微妙的是，报告还提到一种“考试感”。

行为审计担心，模型可能察觉到自己正在被评估，但这种“我知道自己在被看着”的状态，不一定会写在模型的回答里。

AI 表面上可能什么都没说，内部却已经意识到这不是普通任务，而是一场测试，而故意表现的比平时更好。

所以很多人感觉 Opus 4.8“降智”，可能不是它真不会了，更像是从“卷王模型”变成了“摸鱼型打工人”，少犯错，少冒险，但也不太愿意继续死磕。

Mythos 5 在同类任务中跑得更远，说明 Anthropic 已经在改进这类问题。

只是这次报告将这个现象摆到了台面上，不能只关注大模型越来越聪明，可能还得防着它想摸鱼早下班。

云头条声明：如以上内容有误或侵犯到你公司、机构、单位或个人权益，请联系我们说明理由，我们会配合，无条件删除处理。

未查询到任何数据！

◎欢迎您留言咨询，请在这里提交您想咨询的内容。