百川智能发布Baichuan-M4医疗大模型：HealthBench三榜第一，幻觉率压到3.3%

6月22日，百川智能联合清华大学研究团队扔出一颗医疗AI的重磅炸弹——新一代医疗增强大模型Baichuan-M4正式发布。在全球最权威的医疗大模型评测HealthBench及其Hard、Professional三个榜单上同时拿到世界第一，全面超越GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro等顶尖模型，幻觉率低至3.3%。

Table of Contents

核心看点

HealthBench三榜全球第一：HealthBench主榜、Hard榜、Professional榜同时位列第一，超越GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro
幻觉率仅3.3%：在医疗这种”错一个就出人命”的领域，3.3%的低幻觉率几乎刷新了行业纪录
“真人医生”式主动问诊：不是被动等用户描述症状，而是像真医生一样主动追问关键信息，准确率大幅提升
全病程记忆功能：整合患者历史就诊信息，确保多次问诊的连贯性，类似”老患者”医生对你的了解
证据锚定技术：每条医学结论都能精准引用医学文献和指南作为依据，决策严谨可追溯

深度解读

医疗AI的”硬指标”是幻觉率。你让AI开药，它编了一个根本不存在的药名+剂量——在普通聊天场景里无伤大雅，在医疗场景里可能就是人命。Baichuan-M4把幻觉率压到3.3%是什么概念？GPT-4早期版本医疗幻觉率在15%-20%，GPT-5.5在5%-8%左右，3.3%几乎触到了”医疗可用”的及格线。

百川这次联合清华大学联合研发，学术背书+工程优化的组合拳打得很明确。HealthBench是医疗AI领域公认的最难评测之一，由哈佛医学院和斯坦福联合开发，覆盖了从基础问诊到复杂病例的数百个真实场景。Baichuan-M4在三个子榜（标准、Hard难度、专业医生级）同时拿第一，意味着它从”能看病”跨越到了”看得好病”。

“真人医生”式主动问诊是另一个核心升级。传统医疗AI是被动应答：你说”我头疼”，它回”可能是感冒”。Baichuan-M4会主动追问——”头疼多久了？哪个位置？伴随什么症状？有没有发烧？”。这种结构化问诊流程，让AI问诊从”闲聊”变成”专业分诊”，对真实医疗场景的还原度大幅提升。

全病程记忆功能解决了一个很现实的痛点：你今天问AI”我咳嗽怎么办”，明天问”我发烧怎么办”，它根本不知道你是同一个人。Baichuan-M4能跨会话记住你的病史、过敏史、家族遗传信息，这意味着AI家庭医生具备了”长期跟踪”的能力，对慢性病管理、复诊随访、用药跟踪特别有用。

证据锚定技术可能是最”内行”的功能。普通医疗AI给建议时，你很难验证它说的”某药对某病有效”是不是真的。Baichuan-M4的每条医学结论都能精准引用医学文献、临床指南、药品说明书作为依据——这等于让AI从”凭感觉开药”变成”有据可查的开药”，对医生来说是省事，对患者来说是放心。

对普通人来说，Baichuan-M4这类医疗AI模型最有价值的是医疗资源普惠化。偏远地区、基层社区、夜间急诊——这些场景下专业医生稀缺，AI医疗助手能提供接近三甲医院水平的初诊建议。当然，Baichuan M4的定位很明确：辅助工具，不替代医生。但有了它，普通人在挂号之前先问一轮AI，把症状梳理清楚、准备好相关检查报告再去见医生，能大幅提升就诊效率。

对行业而言，Baichuan-M4的发布标志着国产医疗AI正式跻身世界一流行列。从百川的M1到M4，迭代速度反映了中国AI公司在垂直领域深耕的决心。当通用大模型越来越卷的时候，医疗、法律、教育这些专业领域的”小而美”模型，反而是国产AI弯道超车的好赛道。

本文地址：https://www.163264.com/13259