核心看点
2026年2月5日,Anthropic发布Claude Opus 4.6。这次更新不是小修小补,而是三个重磅升级的集合:
100万token上下文:从读文章到读整本书
Opus 4.6首次支持100万token的上下文窗口(Beta),128K输出上限。
这是什么概念?
- 一本300页的书,大约15-20万token
- 100万token = 5本书同时塞进上下文
- 你可以让Claude同时分析5份年报、5篇论文、5个代码库
对金融分析师、律师、研究员来说,这是工作方式的质变——不再需要分段输入、手动拼接结论。
Agent Teams:一个人指挥一个AI团队
Agent Teams是Opus 4.6最被低估的功能。
它允许16个智能体并行协作,每个智能体负责不同子任务,然后汇总结果。比如:
- 智能体1:分析市场数据
- 智能体2:写代码实现策略
- 智能体3:测试和验证
- 智能体4:生成报告
以前这些要串行完成,现在可以并行推进。效率提升不是2倍,是指数级。
自适应思考:该想的时候想,不该想的时候快
Opus 4.6引入了自适应思考(Adaptive Thinking)能力。
简单说:模型能自己判断任务难度。简单问题快速回答,复杂问题深度推理。不再一刀切地用力过猛或思考不足。
在GDPval-AA(金融、法律等高价值任务基准)上,Opus 4.6领先GPT-5.2和Opus 4.5。在Humanity’s Last Exam(复杂多学科推理测试)中也处于领先地位。
编程能力:Terminal-Bench 2.0最高分
在Terminal-Bench 2.0(代理编程评估)中,Opus 4.6取得了最高分。
具体成绩:
- 编程能力得分:65.4%
- 信息搜索:84.0%
- Elo分数:1606
更关键的是,Opus 4.6能更谨慎地规划,更长时间地执行代理任务,在大规模代码库中可靠运行,并能纠正自己的错误。
翻译成人话:它不再是写代码的工具,而是能独立做项目的工程师。
顾问策略:省钱的新玩法
Anthropic还推出了一个有趣的顾问策略:
- Opus 4.6当顾问——负责拆解任务、制定策略
- Sonnet 4.6或Haiku 4.5当执行者——负责具体实现
实测结果:性能提升,成本大降。
这解决了开发者的一个痛点:顶级模型太贵,轻量模型能力不足。顾问策略反转了传统逻辑——不是大模型拆解+小模型执行,而是大模型规划+小模型执行。
Claude上火星:NASA的AI副驾驶
2026年2月,Anthropic还透露了一个彩蛋:Claude帮助NASA的Perseverance火星车完成了首次AI辅助驾驶。
这是AI在另一个星球上的第一次。虽然细节不多,但象征意义很大——Claude的能力已经延伸到地球之外。
总结
Claude Opus 4.6是Anthropic在Agentic AI方向上的重要里程碑。
100万token上下文让长文档处理成为可能,Agent Teams让多任务协作成为现实,自适应思考让模型更聪明地分配算力。
对开发者来说,Opus 4.6意味着你可以开始构建真正复杂的AI系统——不是单个AI助手,而是AI团队。
本文地址:https://www.163264.com/12747


微信扫一扫,鼓励一下~