核心看点速览:
- 🔥 OpenAI Codex 已从”代码助手”进化为”全能打工人”,覆盖浏览器、桌面、API、文档等全场景
- 📌 持久对话流 + 置顶快捷键,让 Codex 成为你的长期”幕僚长”
- 🎙️ 语音输入捕捉原始灵感,任务干预/排队实现人机合一的掌控感
- 🤖 自动化 + 目标驱动,让 Codex 在你喝咖啡时自动推进工作
- 🧠 侧边栏审查 + 共享记忆,打造真正的团队协作闭环
大多数开发者刚接触 AI 编程智能体时,通常只让它们干一件事:写代码。检查一下代码库,生成个差异对比,跑跑测试,然后提个合并请求。写代码确实是 Codex 的核心强项。
但仔细想想,我们在电脑上做的大部分工作,本质上其实都和代码息息相关:执行终端命令、浏览网页、调用 API、导出文档、响应事件、触发自动化流程。当 Codex 延伸到这些领域时,它给人的感觉就不再只是一个”编程助手”,而是进化成了一个能帮你搞定各种电脑工作的“全能打工人”。
这篇文章来自 OpenAI Codex 官方团队的深度分享,系统性地讲解了如何把 Codex 用到极致。下面是核心干货整理。
一、持久对话流:把 Codex 变成你的长期幕僚长
Codex 现在支持持久对话流(Durable Threads),可以长时间运行并在多次使用过程中始终保留工作上下文。这意味着它不是一个”聊完即焚”的闲聊框,而是一个持久的工作空间。
你可以把常用的对话流置顶(Pinned Threads),比如:
- 一个专属的”幕僚长”对话流(处理日常杂务)
- 一个专门负责产品发布的对话流
- 一个负责审查文档的对话流
- 一个盯着外部数据的监控对话流
按下 Command-1 到 Command-9 就能瞬间穿越回这些对话继续工作,省时省力。
二、语音输入:捕捉最原始的想法
语音输入的精髓在于:在你把想法字斟句酌地敲成文字之前,先把脑子里最原始、最粗糙的念头原汁原味地捕捉下来。
比如你可以直接说:
“我记得有个叫 Ben 的人在 Slack 上提过这事儿。细节我忘了。你去帮我找找看。”
对于一个会自己搜索、收集上下文的 AI 智能体来说,这几句话就足够它干活了。那些粗糙的记录里,保留了你犹豫的语气、强调的重点,以及那些还没讲完的灵光一现。
三、任务干预与排队:人机合一的掌控感
这是真正拉开与普通 AI 助手差距的功能:
任务干预(Steering):当任务正在执行时,中途打断 Codex 并给它指引新方向。比如让它审查网站时:
“把这个调小一点”
“这两个元素之间的间距不太对”
“这句文案写错了”
任务排队(Queuing):不打断当前任务,而是把新任务排在后面:
“等这活儿干完之后,把预览链接发到 Slack 给审核人看看。”
“干预”是改变 Codex 眼下正在做的事,”排队”是安排它接下来要做的事。两者配合,让你始终保持掌控感。
四、工具与触达范围:让 Codex 的手伸向代码库之外
Codex 的触角可以向外一层层延伸:
- $browser:侧边栏内的应用浏览器,审查网页并做标记
- @chrome:获取浏览器登录状态,处理基于 Chrome 的工作流
- @computer:通过桌面 GUI 完成图形界面任务
配合 MCP 服务器(Model Context Protocol) 和各种连接器,Codex 的能力可以延伸到 Slack、邮件、日程等整个工作流中。
五、随时随地工作:打破”必须坐在电脑前”的束缚
一个任务可以在你的 Mac 电脑上启动,当你离开工位用手机查看时,它依然在默默推进。如果在外面时它有问题问你,你可以直接用手机回复、批准下一步行动,或者指派新方向。
你的本地环境安安静静地干活,你的人却可以自由移动。这在很多碎片时间里非常有用。
六、自动化与目标设定:让 Codex 在你不在时自动搬砖
对话流自动化(Thread Automations):按照设定的时间表,定期回到同一个 Codex 对话流中继续工作。比如你的”幕僚长”可以每 30 分钟跑一次:
每 30 分钟,查一下 Slack 和 Gmail 里有没有需要处理但没回的消息。帮我排优先级。如果有人向我提问,深入查资料,然后帮我起草回复,但不要直接发送。
目标设定(Goals):运行时间更长的任务,有一个明确的终点线,AI 会持续向它冲刺。
一个糟糕的目标:”把这个 Markdown 文件里的计划实现一下。”
一个优秀的目标:”直到所有单元测试全部通过,这个迁移才算完成。”
目标设定就是把”持续执行”和”验证器”结合在一起。好用的验证器包括:完整的测试用例、基准性能测试、能稳定复现的 Bug、验证矩阵、端到端工作流。
七、侧边栏:审查与迭代的终极工作台
侧边栏让你生成的工作成果始终和聊天窗口并排在一起。直接在原地就能审查,不用再痛苦地在不同软件之间切来切去。
它特别擅长四种工作:
- 检查生成文件(artifacts)
- 标注需要修改的地方
- 操作网页界面
- 审查代码或文件的变更
应用内浏览器让 Codex 能够直接检查渲染好的网页,控制它,响应你在网页上做的标注。一个简简单单的 index.html 就能变成好玩的交互式应用,连服务器都不用搭。
八、共享记忆:打破单次聊天的界限
当持久对话流能把记忆共享出去时,它们的作用将发生质的飞跃。一个稳妥的做法是把对话流”锚定”在一个 Obsidian 知识库里,建一个存放纯文本文件的文件夹,放在 Git、Dropbox 或 Google Drive 里同步。
你可以放一个 AGENTS.md 文件,告诉 Codex:当它了解到关于人员、项目、决策及待办事项的新情况时,应该如何更新知识库。
代码库是用来存代码的,而这个知识库是用来存不断滚动的上下文的:牵涉到哪些人、改了什么、卡在哪里、接下来谁跟进。
总结:从代码助手到全能工作流的进化
Codex 虽然还是以写代码为本行起家,但现在围绕代码的周边工作——MCP 服务器、网页界面、桌面控制、对话流自动化、侧边栏审查——都能在同一套系统里搞定。
“任务干预”可以在中途打断动作;”任务排队”可以安排好下一步;”对话流自动化”让人不在场时系统依然运转;”目标设定”画了一条清晰的终点线。如今的 Codex 已经可以扛起一个完整的工作流:从听取指令、执行任务,一直到最终文件的审查。
本文内容整理自宝玉(@dotey)对 OpenAI Codex 官方团队分享的翻译与解读。原文作者:jason(@jxnlcio)
本文地址:https://www.163264.com/12066

