Claude Opus 4.6 发布:100万token上下文 + Agent Teams,16个智能体并行协作

核心看点

2026年2月5日,Anthropic发布Claude Opus 4.6。这次更新不是小修小补,而是三个重磅升级的集合:

  • 100万token上下文窗口(Beta)——可以一次性处理整本书
  • Agent Teams——16个智能体并行协作
  • 自适应思考——模型自己判断要不要深度思考

100万token上下文:从读文章到读整本书

Opus 4.6首次支持100万token的上下文窗口(Beta),128K输出上限。

这是什么概念?

  • 一本300页的书,大约15-20万token
  • 100万token = 5本书同时塞进上下文
  • 你可以让Claude同时分析5份年报、5篇论文、5个代码库

对金融分析师、律师、研究员来说,这是工作方式的质变——不再需要分段输入、手动拼接结论。

Agent Teams:一个人指挥一个AI团队

Agent Teams是Opus 4.6最被低估的功能。

它允许16个智能体并行协作,每个智能体负责不同子任务,然后汇总结果。比如:

  • 智能体1:分析市场数据
  • 智能体2:写代码实现策略
  • 智能体3:测试和验证
  • 智能体4:生成报告

以前这些要串行完成,现在可以并行推进。效率提升不是2倍,是指数级

自适应思考:该想的时候想,不该想的时候快

Opus 4.6引入了自适应思考(Adaptive Thinking)能力。

简单说:模型能自己判断任务难度。简单问题快速回答,复杂问题深度推理。不再一刀切地用力过猛或思考不足。

在GDPval-AA(金融、法律等高价值任务基准)上,Opus 4.6领先GPT-5.2和Opus 4.5。在Humanity’s Last Exam(复杂多学科推理测试)中也处于领先地位。

编程能力:Terminal-Bench 2.0最高分

在Terminal-Bench 2.0(代理编程评估)中,Opus 4.6取得了最高分

具体成绩:

  • 编程能力得分:65.4%
  • 信息搜索:84.0%
  • Elo分数:1606

更关键的是,Opus 4.6能更谨慎地规划,更长时间地执行代理任务,在大规模代码库中可靠运行,并能纠正自己的错误。

翻译成人话:它不再是写代码的工具,而是能独立做项目的工程师。

顾问策略:省钱的新玩法

Anthropic还推出了一个有趣的顾问策略

  • Opus 4.6当顾问——负责拆解任务、制定策略
  • Sonnet 4.6或Haiku 4.5当执行者——负责具体实现

实测结果:性能提升,成本大降。

这解决了开发者的一个痛点:顶级模型太贵,轻量模型能力不足。顾问策略反转了传统逻辑——不是大模型拆解+小模型执行,而是大模型规划+小模型执行

Claude上火星:NASA的AI副驾驶

2026年2月,Anthropic还透露了一个彩蛋:Claude帮助NASA的Perseverance火星车完成了首次AI辅助驾驶

这是AI在另一个星球上的第一次。虽然细节不多,但象征意义很大——Claude的能力已经延伸到地球之外。

总结

Claude Opus 4.6是Anthropic在Agentic AI方向上的重要里程碑。

100万token上下文让长文档处理成为可能,Agent Teams让多任务协作成为现实,自适应思考让模型更聪明地分配算力。

对开发者来说,Opus 4.6意味着你可以开始构建真正复杂的AI系统——不是单个AI助手,而是AI团队。

本文地址:https://www.163264.com/12747

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐