OpenAI 前 CTO Mira Murati 新公司首秀:不做聊天机器人,要让 AI 像真人一样实时协作。


按照 Thinking Machines 的说法,今天的大多数 AI 模型仍然停留在“一问一答”的轮次模式。
用户说完或输入完,模型才开始处理;模型生成回答时,对外部世界的感知又会暂停。结果就是,人和 AI 的沟通像在发邮件,而不是面对面协作。
Interaction Models 想解决的正是这个问题。
Thinking Machines 认为,未来的 AI 应该能像真人协作一样工作。
一边听、一边看、一边理解用户意图,同时还能插话、回应、调用工具或继续处理后台任务。
AI 不再只是等用户发出完整指令后再回答,而是可以在对话、演示、写代码、翻译、看视频等场景中持续参与。
在技术路径上,Thinking Machines 提出了 multi-stream、micro-turn 设计。
简单说,它将实时交互切成约 200ms 的小片段,让模型以连续流的方式处理输入和输出。音频、视频、文本不再被压成一个完整回合,而是在时间线上持续进入模型。
这样,沉默、打断、重叠说话、视觉变化,都可以成为模型理解上下文的一部分。
这和当前很多实时语音系统有明显区别。
现有产品通常是在传统大模型外面加一层语音识别、语音合成、轮次检测等组件,让系统“看起来”像实时对话。
Thinking Machines 的思路则是,把实时交互能力直接做进模型本身,而不是靠外部脚手架拼出来。
该公司还设计了前台交互模型和后台模型的分工。
前台 Interaction Model 负责保持实时在场,持续接收用户输入并回应;当任务需要更长时间推理、搜索或调用工具时,再交给后台模型异步处理。后台结果生成后,再由前台模型自然接回对话中。
Thinking Machines 给出的示例包括:
1)模型可以在用户讲故事时识别动物相关内容;
2)可以在双方说话重叠的情况下做实时翻译;
3)也可以通过视频输入发现用户坐姿不对并主动提醒。
这些能力展示了 Thinking Machines 想做的不是传统聊天机器人,而是一种更接近“实时协作者”的 AI。
从公开信息看,这项技术目前还没有正式开放。
Thinking Machines 表示,未来几个月将启动有限研究预览,并计划在今年晚些时候进行更大范围发布。
这也是 Mira Murati 离开 OpenAI 后创办 Thinking Machines Lab 以来,外界第一次看到该公司的清晰产品和技术方向。
Murati 曾任 OpenAI CTO,参与过 ChatGPT、DALL·E 等核心产品。
Thinking Machines 成立于 2025 年 2 月,但过去一年也经历了部分核心成员流向 Meta 和 OpenAI 等公司的人员波动。
Thinking Machines 不打算直接卷“谁的模型更聪明”这一条主线,而是押注另一个方向 —— 谁能让 AI 更自然地进入真实工作流。
如果这一路线走通,AI 产品的竞争重点可能会从“回答质量”进一步转向“协作体验”。
真正的变化不只是 AI 回答得更快,而是它能否在用户说话、展示、操作、犹豫、打断和修改想法的过程中,一直跟得上人。
云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。


网友留言2