微医医疗大模型领跑MedBench 4.0综合榜单

外汇
5小时之前
1

来源：环球网

日前，中文医疗大模型权威评测平台MedBench公布了最新一期评测结果，引发关注。由上海人工智能实验室全新发布的MedBench 4.0，是国内首个且唯一面向医疗垂直大模型、专用大模型及应用场景的综合性评测与验证的平台，已成为衡量医学人工智能产品性能与可靠性的科学标尺。在迭代至4.0版本的更为严格、全面的MedBench权威评测中，微医医疗大模型在综合榜单中持续领跑，其突出的临床辅助能力与可靠性获得验证。

MedBench榜单截图

2025年11月，MedBench升级至4.0版本，聚焦“实战化评测突破”与“生态化开放共建”两大核心方向，包含多模态大模型、大语言模型、及智能体三大技术范式。平台对齐国家《卫生健康行业人工智能应用场景参考指引》，覆盖60个全自主构建评测集，深度提炼共70万余专业评测题，全方位检验模型在不同医疗场景下的真实能力，标志着我国医疗大模型评测体系迈入一个全新的阶段。

全方位能力验证：微医医疗大模型展现“真功夫”

在MedBench 4.0的评价体系下，微医医疗大模型的优异成绩充分证明了其扎实的内功。

在至关重要的多模态能力上，微医医疗大模型问鼎评测榜单。MedBench 4.0瞄准医疗影像、检测报告等临床核心场景，设置了涵盖目标检测、图像分类、多模态报告质控、序列影像理解、病程动态追踪等10项细分任务。这填补了中文医疗多模态评测领域的技术缺口，也为微医医疗大模型在医学影像辅助分析、多模态报告解读等方面的能力提供了精准的验证依据。在针对大语言模型和智能体的评测方面，微医医疗大模型均位列榜单前三，行业领先的医疗AI研发能力进一步凸显。

此次评测结果有力地回应了“医疗大模型价值何在”的行业之问。与满足日常健康咨询的通用大模型不同，微医医疗大模型自研技术聚焦深度融合临床真实诊疗数据与临床决策路径，在需要给出专业判断的严肃医疗场景中，能够提供高质量的循证参考，其核心价值在于真正赋能诊疗水平提升、助力基层医疗补短，最终服务于价值医疗的宏伟目标。

技术扎根真实场景，驱动价值医疗普惠未来

微医医疗大模型之所以能在权威评测中展现硬核实力，根源在于其“生于场景、长于场景”的发展路径。

与实验室环境下的训练不同，微医医疗大模型的训练与优化始终与线下医疗机构的真实业务流程紧密耦合，确保了技术发展不偏离临床需求与医疗规范的主航道。

目前，该模型的能力已全面赋能微医人工智能医院的各项服务。大模型能力通过AI医生、AI药师、AI健管、AI智控和微小医等五大智能体，已在AI健共体中规模化应用，实现了从技术能力到商业价值的闭环转化。

不仅如此，在真实业务场景的协同下，微医已形成能够增强训练和自我强化的数据飞轮效应，在疗效评估、经济性评估等反馈中不断优化AI医疗能力，最终达到提质增效的效果。

“此次通过MedBench 4.0的严格检验，不仅是对微医医疗AI技术路线的肯定，更为我们继续深化应用注入了坚定信心。”微医人工智能研究院首席科学家徐红霞介绍，微医将继续以通过权威验证的医疗大模型为核心驱动，联合生态伙伴，在更广泛的医疗人工智能应用领域持续深耕。以安全、可靠、专业的AI技术为支撑，构建一个真正智能化、普惠化的医疗健康新生态，让优质医疗资源触手可及，为健康中国建设贡献坚实的科技力量。（心月）