推理

OpenAI发布GPT-5技术报告：推理能力大幅提升，多模态理解更自然

OpenAI最近发布了GPT-5的技术报告，虽然没有正式的产品发布，但从透露的信息来看，这次升级在推理能力和多模态理解方面都有显著提升。推理能力：从”快思考”到”慢思考” GPT-5最大的改进是推理能力。之前的模型虽然知识面广，但在需要深度推理的任务上经常掉链子。GPT-5引入了更长的思维链机制，让模型可以像人类一样&#8221…

openai-gpt 2026年7月7日
AI 日报

AI日报：美团开源万亿参数大模型LongCat-2.0；小红书RedKnot推理引擎开源

今天 AI 圈又有不少新动态，从开源大模型到推理引擎，再到 AI 应用渗透日常出行，一起来看。美团发布万亿参数开源大模型 LongCat-2.0 美团正式开源了新一代大模型 LongCat-2.0，几个关键数字： 1.6T 总参数，万亿级别原生支持 1M 超长上下文，长文档处理不用愁国产算力集群上完成全流程训练与推理预览版在 OpenRouter 平台月调用量已跻身全球…

2026年7月1日
AI 日报

AI日报：美团开源万亿参数LongCat-2.0，小红书RedKnot推理引擎开源，豆包内置导航

今天AI圈又热闹了，整理几条值得关注的动态。 1. 美团开源万亿参数大模型 LongCat-2.0 美团正式发布并开源了LongCat-2.0，总参数1.6万亿，原生支持1M超长上下文。亮点是在国产算力集群上完成了全流程训练与推理，不依赖海外芯片。预览版已经上线OpenRouter平台，月调用量冲到全球前三。编程评测中表现超过了GPT-5.5和Claude Opus 4.6，…

2026年7月1日
算力提速关键突破：北大与DeepSeek联合开源大模型推理框架DSpark

大模型推理的速度和成本，一直是AI落地的两大痛点。最近，北京大学和DeepSeek联合开源了一个叫DSpark的推理框架，专门解决这两个问题。从初步信息来看，DSpark在生成效率和吞吐量上都有显著提升。对于需要大规模部署AI服务的企业来说，这可能是个好消息。大模型推理的痛点：慢和贵先说说为什么大模型推理这么让人头疼。现在的AI应用，比如ChatGPT、文心一言这些聊天…

模型框架 2026年6月29日
通义千问升级”拍照问健康”：能圈图、懂推理，三甲医生实测认可

核心看点通义千问 APP “拍照问健康” 功能升级，实现医学图像理解与临床推理三大核心能力：视觉圈选异常区域、联动推理诊断、过程透明可追溯三甲医生实测认可，健康辅助诊断可靠性大幅提升正文拍张照片就能问健康？以前这种功能顶多告诉你”看起来像感冒”，现在通义千问升级后的”拍照问健康”，是真的能看懂图、…

应用 2026年5月27日
苹果发布AI推理框架LaDiR：突破单一思维，让AI同时探索多条解题路径

核心看点并行推理机制：LaDiR让AI在回答问题前同时启动多条独立的推理路径，从随机噪声开始逐步优化，最后选出最佳答案扩散+自回归混合架构：推理阶段使用扩散模型并行探索，最终输出阶段使用自回归模型保证连贯性多样性鼓励机制：框架内置特殊机制防止所有路径过早收敛于同一结论，确保每条路径探索不同解题思路实测表现优异：在LLaMA 3.1 8B和Qwen3-8B-Base上部署…

模型框架 2026年4月30日
英伟达发布Nemotron 3 Nano Omni全模态模型：30B-A3B MoE架构，推理吞吐量暴涨9倍

核心看点全模态统一：Nemotron 3 Nano Omni将视频、音频、图像和文本推理集成于单一模型，替代传统碎片化的视觉-语音-语言模型链 30B-A3B混合MoE架构：结合Mamba层（提升序列与内存效率）和Transformer层（精准推理），内存和计算效率最高提升4倍吞吐量9倍领先：在视频推理任务中，相比其他开源全模态模型，有效系统容量最高提升约9.2倍；多文档推…

模型框架 2026年4月30日
英伟达发布 Nemotron 3 Nano Omni 全模态模型：30B-A3B 混合 MoE，吞吐量飙升 9.2 倍

英伟达近日宣布推出 Nemotron 3 Nano Omni，一款面向企业级 AI Agent 平台的开源全模态推理模型，可将视频、音频、图像和文本的多模态推理集成于单一模型中，替代传统碎片化的多模型链方案。核心看点 30B-A3B 混合 MoE 架构：结合 Mamba 层（高效序列处理）与 Transformer 层（精准推理），计算效率最高提升 4 倍吞吐量碾压级表现：…

模型框架 2026年4月30日
蚂蚁集团百灵大模型开源 Ling-2.6-flash：104B参数仅激活7.4B，推理速度最高340 tokens/s

蚂蚁集团旗下百灵大模型今日宣布正式开源 Ling-2.6-flash，这是一款总参数量 104B、激活参数仅 7.4B 的 Instruct 模型，以极低的推理成本实现了令人瞩目的性能表现。核心看点 104B 总参、7.4B 激活：采用混合专家（MoE）架构，大幅降低推理资源需求推理速度达 340 tokens/s：在 4 卡 H20 环境下实现极速推理，Prefill 吞…

模型框架 2026年4月30日
英伟达开源Nemotron 3 Nano Omni全模态模型：30B参数MoE架构，吞吐量暴增9.2倍

英伟达又放了个大招。当地时间4月28日，英伟达正式发布了 Nemotron 3 Nano Omni 开源全模态推理模型，一口气把视频、音频、图像和文本的多模态推理能力塞进了一个统一的模型里。翻译成大白话就是：以前需要好几个模型串起来干的活儿，现在一个模型全搞定。核心看点采用30B-A3B混合MoE（混合专家）架构，每个token只激活3B参数，效率拉满视频推理吞吐量最高提…

模型框架 2026年4月29日

1 / 2
1
2