百川智能发布Baichuan-M4医疗大模型:HealthBench三榜第一,幻觉率压到3.3%

6月22日,百川智能联合清华大学研究团队扔出一颗医疗AI的重磅炸弹——新一代医疗增强大模型Baichuan-M4正式发布。在全球最权威的医疗大模型评测HealthBench及其Hard、Professional三个榜单上同时拿到世界第一,全面超越GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro等顶尖模型,幻觉率低至3.3%

Table of Contents

核心看点

  • HealthBench三榜全球第一:HealthBench主榜、Hard榜、Professional榜同时位列第一,超越GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro
  • 幻觉率仅3.3%:在医疗这种”错一个就出人命”的领域,3.3%的低幻觉率几乎刷新了行业纪录
  • “真人医生”式主动问诊:不是被动等用户描述症状,而是像真医生一样主动追问关键信息,准确率大幅提升
  • 全病程记忆功能:整合患者历史就诊信息,确保多次问诊的连贯性,类似”老患者”医生对你的了解
  • 证据锚定技术:每条医学结论都能精准引用医学文献和指南作为依据,决策严谨可追溯

深度解读

医疗AI的”硬指标”是幻觉率。你让AI开药,它编了一个根本不存在的药名+剂量——在普通聊天场景里无伤大雅,在医疗场景里可能就是人命。Baichuan-M4把幻觉率压到3.3%是什么概念?GPT-4早期版本医疗幻觉率在15%-20%,GPT-5.5在5%-8%左右,3.3%几乎触到了”医疗可用”的及格线。

百川这次联合清华大学联合研发,学术背书+工程优化的组合拳打得很明确。HealthBench是医疗AI领域公认的最难评测之一,由哈佛医学院和斯坦福联合开发,覆盖了从基础问诊到复杂病例的数百个真实场景。Baichuan-M4在三个子榜(标准、Hard难度、专业医生级)同时拿第一,意味着它从”能看病”跨越到了”看得好病”

“真人医生”式主动问诊是另一个核心升级。传统医疗AI是被动应答:你说”我头疼”,它回”可能是感冒”。Baichuan-M4会主动追问——”头疼多久了?哪个位置?伴随什么症状?有没有发烧?”。这种结构化问诊流程,让AI问诊从”闲聊”变成”专业分诊”,对真实医疗场景的还原度大幅提升。

全病程记忆功能解决了一个很现实的痛点:你今天问AI”我咳嗽怎么办”,明天问”我发烧怎么办”,它根本不知道你是同一个人。Baichuan-M4能跨会话记住你的病史、过敏史、家族遗传信息,这意味着AI家庭医生具备了”长期跟踪”的能力,对慢性病管理、复诊随访、用药跟踪特别有用。

证据锚定技术可能是最”内行”的功能。普通医疗AI给建议时,你很难验证它说的”某药对某病有效”是不是真的。Baichuan-M4的每条医学结论都能精准引用医学文献、临床指南、药品说明书作为依据——这等于让AI从”凭感觉开药”变成”有据可查的开药”,对医生来说是省事,对患者来说是放心。

对普通人来说,Baichuan-M4这类医疗AI模型最有价值的是医疗资源普惠化。偏远地区、基层社区、夜间急诊——这些场景下专业医生稀缺,AI医疗助手能提供接近三甲医院水平的初诊建议。当然,Baichuan M4的定位很明确:辅助工具,不替代医生。但有了它,普通人在挂号之前先问一轮AI,把症状梳理清楚、准备好相关检查报告再去见医生,能大幅提升就诊效率

对行业而言,Baichuan-M4的发布标志着国产医疗AI正式跻身世界一流行列。从百川的M1到M4,迭代速度反映了中国AI公司在垂直领域深耕的决心。当通用大模型越来越卷的时候,医疗、法律、教育这些专业领域的”小而美”模型,反而是国产AI弯道超车的好赛道。

本文地址:https://www.163264.com/13259

(0)
上一篇 17小时前
下一篇 17小时前