2 月 13 日下午,在医院会诊室内。13 位北京儿童医院的知名专家坐在会议桌的一侧,他们神情专注。与这些顶级专家一同参与会诊的,还有国内首位 AI 儿科医生。
一块屏幕实时展示着一名疑难病例患儿脑部的磁共振成像影像。工作人员将患儿病历及相关影像资料等输入电脑后,另一块屏幕同步呈现出 AI 儿科医生对患儿诊疗的深度思考。最终,AI 给出的建议与现场专家们的会诊结果高度相符。
北京儿童医院院长、耳鼻咽喉头颈外科专家倪鑫主持了这次会诊。倪鑫向《中国新闻周刊》表示,当时大家看到结果都很惊讶。如今,每周四,倪鑫都会主持专家会诊,并且有 AI 儿科医生参与,会对 5 至 10 名患儿的病情进行全方位讨论。
AI正在快速迈向临床应用。AI 大模型如 DeepSeek 推动了医疗行业的智能化进程,使其加快。据不完全统计,全国有超过 100 家医院已经完成了 DeepSeek 的本地部署。
AI 医生是否真的靠谱呢?它能否将人类医生取代呢?在这场医疗革命的浪潮里,技术创新、伦理挑战以及监管体系的博弈,才刚刚拉开帷幕。
AI加速涌入医院
DeepSeek的影响力,已蔓延到了门诊患者中。
2 月 27 日,倪鑫主持了第三次专家会诊,参与会诊的有 AI 儿科医生。有一名 5 岁女孩来自重庆,因意外摔倒,导致鼻子严重红肿且频繁出血。她在多家医院就诊都没有结果。因为病情较为复杂,倪鑫当场无法做出最终诊断,不过建议孩子服用一款免疫治疗药物。会诊结束时,让他印象深刻的是,患儿母亲拿出一张 A4 纸让他看,纸上是她向 DeepSeek 咨询的问诊记录。过去,患者看病通常会带着不同医院的诊断以及病历资料。
复旦大学附属华山医院(即“华山医院”)的神经内科主任医师郁金泰向《中国新闻周刊》表明,DeepSeek 能被视作患者自查工具的一种“进阶版”。以往,人们在看病之前或许会借助百度来搜索相关的信息,然而如今 DeepSeek 等则提供了更为系统化的建议。
如今,医疗AI大模型正如雨后春笋般涌现。
每天都有医院宣布在 DeepSeek 基础上部署 AI 大模型,也有医院公布与企业合作研发的垂直 AI 大模型。其中,北京儿童医院的 AI 儿科医生属于后者,此大模型是由北京儿童医院与北京百川智能科技有限公司(简称“百川智能”)等一同研发的。
去年 8 月,北京儿童医院与百川智能正式宣布合作。他们计划推出五款 AI 医疗产品。在这些产品中,参与疑难杂症会诊的 AI 儿科医生属于“儿童医学专家临床科研助理”。
百川智能的创始人王小川在创立百川的第一天,就有了“造医生”的想法,也就是要打造出具备专业诊疗能力的 AI 医生。在国内的儿科医疗领域,存在着医生数量严重不足的情况。根据国家卫生健康委在 2024 年 6 月份所发布的数据来看,当下全国儿科医师的数量仅仅为 20.58 万人。去年 2 月,在一次长达两小时的深入交流里。关于 AI 儿科医生的项目,北京儿童医院与百川智能达成了一致意见。
AI 大模型如同在进行“造人”的工作,它具备模拟人类思维方式的能力。百川智能医疗副总裁李施政向《中国新闻周刊》表达了这一观点。起初,百川智能提到的是要“造医生助手”。然而,倪鑫主动提出了“要造 100 万个儿科医生”的想法。倪鑫表示,第一次 AI 儿科医生会诊结束后,当时在北京至少有五六家医院主动联系,并且在考虑未来引入类似的技术。
春节前后,DeepSeek 迅速走红,推动了 AI 大模型的快速发展。华山医院大数据中心的主任黄虹向《中国新闻周刊》透露,其实在 DeepSeek 出现之前,医院就已经在尝试部署其他的 AI 大模型了。为了节省成本,华山医院没有自己去采购算力服务器,而是选择租用其他平台的算力资源,然后将其接入医院的内网来进行测试。
华山医院大数据中心的副主任程思杰向《中国新闻周刊》表示,医院完成 DeepSeek 的接入以及硬件部署,仅仅花费了几天时间。在选择 AI 大模型的时候,除了要考虑性能,性价比也是一个关键的考量因素。从成本角度来看,DeepSeek70B 版本的硬件成本大概是 130 万元,而满血版大模型则需要 260 万到 560 万元,这里的硬件成本主要指的是算力服务器的费用。接入 DeepSeek 是迈出的第一步。真正的挑战在于怎样使它能够符合医疗级应用的标准。
目前,除了北京儿童医院和华山医院之外,全国有很多知名的三甲医院都在踊跃地进行 AI 大模型的部署。在西部的某一个省会城市,一家三甲医院的外科主任医师叫赵霖,他正在带头推进医院的 DeepSeek 本地大模型的部署工作。赵霖称,因为 DeepSeek 是开源且免费的,所以便于医院按照自身的需求进行本地化的调整。目前,团队正在对 AI 的学习能力进行验证。他们通过输入权威指南,输入临床共识,以及输入患者病历,来训练 AI 分析病情和判断病情的能力。虽然 AI 系统的框架已经初步搭建完成了,但是它仍在持续进行优化。
AI幻觉无法避免
华山医院中,AI 大模型的内部测试涵盖了科研这一应用场景,同时也涵盖了临床等其他多个应用场景。
过去,要建立一个包含 1000 个不同数据项的临床研究电子数据库。这需要研究者与数据库设计师反复进行沟通。通过这样的反复沟通,才能够生成一个可以在线运行的数据库。如今在 AI 的辅助下,借助大模型的理解能力。利用这种辅助和理解能力,这项工作仅用一两天就可以完成。华山医院大数据中心副主任刘从进将这些情况告诉了《中国新闻周刊》。
AI 的一个主要应用场景是在医生接诊前自动收集和整理患者病历,并且可以辅助医生提供诊疗建议。华山医院大数据中心的一位相关负责人向《中国新闻周刊》透露,目前医院内部正在运行多个 AI 大模型版本,其中 7B 模型相当于小学生的水平,32B 模型相当于中学生的水平,而满血版达到了研究生的水平。测试表明,在生成病历等复杂临床任务方面。满血版模型的参数量比较大,但是因为不能进行特定的微调,所以在实际表现上,它还不如小模型。
病历撰写是一项任务,且要求较高。尤其是电子病历的生成,一定要确保其准确性。所以,AI 大模型必须经过严格测试之后,才可以在医院投入使用。程思杰表示,当下医院正在试点融合 DeepSeek 大模型的不同版本,对其生成电子病历的能力进行测试。然而,AI 生成的电子病历依然需要医生进行审核校验,以确保其最终的质量和安全性。
AI 的输出结果主要是以统计数据为基础。一个更关键的问题在于:AI 幻觉似乎是无法避免的。所谓的幻觉,指的是大模型在对问题进行回答时会编造信息。
华中科技大学同济医学院附属同济医院感染科的副主任医师郭威向《中国新闻周刊》表示,当下 AI 大模型在临床上的辅助应用还没有得到广泛的推广。在临床使用过程中,AI 偶尔会出现一些让人觉得很可笑的错误。他举例来讲,影像学的变化是极为复杂的,有时候所看到的或许只是没有诊断价值的“干扰信号”,而 AI 有时会把它判定为病变。“这也是AI技术训练中一个值得重视的问题。”
赵霖遭遇了 DeepSeek 的 AI 幻觉。前些时候,因为本科教材要更新,他在为学生准备外科课程时,让 DeepSeek 帮忙制作 PPT,随后发现它开始编造内容,像杜撰医学名词的出处以及虚构参考文献等。基于此,他产生了疑问:倘若 AI 被用于医学辅助决策,怎样才能确保它所推荐的方案是依据真实指南,而非凭空想象出来的呢?这背后可能会存在严重的医疗风险。
南非顶尖公立研究型大学斯泰伦博斯大学精神病学荣休教授罗宾·埃姆斯利在使用 GPT 时,多次遭遇过 AI 幻觉。他接受《中国新闻周刊》采访时表示,AI 幻觉是他当前最为担忧的事情。“AI 大模型在临床实践中面临的最大问题在于,其生成准确可靠信息的能力存在不足。”
AI 通常会自信地呈现幻觉,这使得它们有时难以被察觉。在医疗领域,任何错误都不能被容忍,哪怕只是一个微小的失误,也有可能危及患者的生命安全。
幻觉的产生和模型的训练内容有密切关系。郁金泰向《中国新闻周刊》表明,AI 的可靠性依赖于输入数据的准确与专业。倘若输入的信息出现错误,那么输出的结果也会有偏差。
李施政指出,AI 模型出错较为常见。然而在医疗领域,对错误必须进行严格控制,尤其是在用药建议环节。为了确保错误率远低于人类医生,AI 医生的工作必须严格依照循证医学原则,也就是所有决策都要以科学证据为基础,这里的科学证据包括权威指南、顶级专家经验以及最新研究成果。
大模型研发初期,要减少幻觉出现,关键在于严格把控数据的唯一性和准确性。倪鑫认为,不是所有医院提供的病历信息等数据都适合直接用于研究。在 AI 儿科医生模型训练时,使用的数据是整合了 300 多位知名儿科专家的临床经验以及专家数十年的高质量病历数据。辅助临床诊断之前,AI 儿科医生参与了四次测试。这些测试既包含专业能力方面的测试,也包含对幻觉的测试。在幻觉测试方面,将其与 DeepSeek 进行了对比,结果表明 AI 儿科医生模型的幻觉率更低。DeepSeek 是一个通用模型,尽管它很强大,但它并非专注于医疗健康领域。AI 医生是专门为医疗领域设计的专业模型,所以它的表现会更加精准。
临床上,若医生依据 AI 建议并最终导致了医疗事故,那么这其中的责任该由谁来承担呢?北京中医药大学医药卫生法学教授邓勇向《中国新闻周刊》分析,责任的判断需依据医生、医院和 AI 系统开发者的不同义务:若医生在采纳 AI 建议时未做必要核实,或未对明显不合理建议提出质疑,就应承担相应责任;医院在引入 AI 系统时,倘若未充分评估和验证系统的可靠性,或未对医务人员进行有效培训和监督,也需承担责任;若因 AI 系统存在设计缺陷或算法错误而给出错误建议,进而引发事故,开发者应承担责任;若开发者未能充分说明系统的局限性和潜在风险,同样应承担一定责任。
医生会被替代吗?
郭威注意到,身边大多数医生对 AI 大模型等新技术持积极态度。同时,医生们也会讨论哪些科室的医生可能最先会被 AI 取代。他分析认为,涉及诊断影像的医生可能面临更大的被替代风险。比如,AI 辅助的 X 光片和胸部 CT 阅片,能够发现许多肉眼难以察觉的小结节。AI 技术在不断进步,影像科医生的工作将会发生转变,更多地转向辅助和审查这方面,而不用再去处理数量众多的常规影像了。
有些人担忧 AI 医生的问世,会致使部分医生失业,然而这种情况不会在儿科医生身上出现。倪鑫指出,儿科医生始终处于短缺的状况,AI 医生和人类医生是彼此相互支持的关系,AI 主要是辅助医生,而不是将他们取代。
不少一线临床医生在拥抱 AI 的同时,还保持着冷静。感染科、神经内科、外科等科室的多名临床医生向《中国新闻周刊》表达了这样的观点:目前 AI 在临床中的作用主要是起到辅助作用,不能够替代医生的决策。北京大学第一医院神经内科的主任医师孙永安向《中国新闻周刊》表明,AI 虽然在对现有数据的分析与整合上展现出良好的表现,然而它欠缺真正的创新能力,不能够独自去探索未知的领域。而医学的进步通常是由具有突破性的创新所带来的。
无论技术的先进程度如何,AI 始终难以替代医生在深度思考和即时应变方面的能力。武汉一家部署了 DeepSeek 的三甲医院急诊科医生魏明向《中国新闻周刊》表示,急诊科有时会需要对患者进行淋巴结活检。比如,在颈部进行淋巴结活检时,影像所显示的病变可能靠近血管,在手术过程中,医生需要亲自去观察并作出判断,要精细地分离淋巴结,同时还要防止出现出血的情况。AI 即便能够标出大致的病灶位置,但是对于如何避开关键结构以及确保安全切除这些问题,依然需要医生依据病人的具体情况来作出判断。而医生始终是最终的决策者。
郁金泰称,医生具备专业背景。医生还能依据临床经验来综合判断病情。这是 AI 无法完全取代医生的关键所在。
在之前的疑难杂症会诊过程中,有一个患儿病例给倪鑫留下了深刻印象。当时 AI 儿科医生提出建议,需给病人进行病理穿刺。然而,倪鑫最终决定不进行该操作。从影像学的角度去看,倪鑫和 AI 的判断大致相同,都认定该患儿患的是皮样囊肿。这种病是由于上皮组织不断脱落并堆积而形成的囊肿,属于一种先天性病变,且并非恶性。这种情况下,我觉得没必要进行有风险的穿刺。并且穿刺也不会带来更多有价值的信息。倪鑫认为,AI 的分析是以大数据为基础的,逻辑十分缜密。他觉得穿刺病理能给出更确切的答案,这个建议并没错。
避免盲目跟风
AI 在医疗领域的发展不会停止。这个目标是拥有 100 万个儿科医生,听起来很宏大,但如今已经基本达成了。我们的大模型从理论上能够生成成千上万的 AI 儿科医生。倪鑫谈到,河北当地有 150 多家基层医院,希望这些医院能成为 AI 儿科医生的首批试点。北京儿童医院计划先在京津冀地区的医院展开试点工作,百川智能也有此计划。之后,将把 AI 儿科医生推广至全国各地。
黄虹指出,DeepSeek 仅是众多大模型里的一个,大模型本身并非是固定不变的。从医院的角度来讲,未来不但要关注单一模型的应用,还要思考怎样去整合多种大模型,以此为不同领域给予精准的支持。“未来的 AI 医疗或许会是‘千模融合’。”
医院自身搭建了 AI 大模型,同时虚拟的 AI 医院正努力走向临床。清华智能研究院执行院长刘洋主导了一项关于智能体医院(Agent Hospital)的研究,且该研究目前仅在预印版网站上进行了发布。刘洋是该研究的通讯作者之一。智能体医院的核心理念在于建立一个“闭环式”的医疗虚拟世界,以实现 AI 医生的加速进化。所谓闭环式,意味着包含了从发病开始,到分诊,再到问诊,直至康复的这一系列医疗环节。AI 医生能够依据这些反馈,持续地进行总结并且优化自身的能力。
去年 11 月,智能体医院首批有 42 位 AI 医生。这些 AI 医生在 21 个科室上线并进行内测。它们支持超过 300 种疾病的诊疗。智能体是在大模型基础上的进一步发展。它能够让 AI 像人类一样,在复杂环境中进行交互、使用工具并与他人协作。刘洋称,其未来的目标是打造一个能够与现实世界完美衔接的智能医疗体系。随着 VR 等技术不断取得进步,未来的医疗交互不会仅仅被限制在 2D 界面的操作上,而是有可能迈入更为立体的 3D 空间。
赵霖了解到,很多医院开展的 AI 大模型项目仍处于验证和测试阶段。现阶段真正落地临床并发挥作用的比例不高。在他看来,目前国内不少医院面临着较大的生存压力,有很多医院为了追求热点、提升影响力,纷纷接入 DeepSeek 等 AI 工具,这使得配置 GPU 的服务器的价格被推高了。但最终能否转化为实际应用,目前尚不确定,仍只是流于形式。未来,或许只有少数高质量的大模型项目能够存活下来。
郭威持审慎态度。他指出,眼下各家医院纷纷行动起来。这种大家都跟着做的方式,更多是因为害怕落后的心理,而不是基于对技术和临床需求的深入研究。黄虹觉得,医院在接入 AI 大模型时,要全面考虑安全、成本、适用性等诸多方面的因素。对于大多数医院来说,怎样确保资金投入到核心业务中,是必须要考虑的问题。
邓勇指出,当下医疗领域的 AI 大模型没有行业标准。这使得不同机构的大模型在数据采集、标注以及算法设计等方面存在差异。这种差异不仅对系统的通用性和操作性产生了影响,还可能提升监管的难度,进而对医疗质量和安全造成影响。所以,制定统一的标准是非常迫切的。
上海市卫生和健康发展研究中心主任金春林在接受《中国新闻周刊》采访时说,AI 医疗的发展不能大家一起行动,不能一下子都去做,而要进行科学的规划,一步一步地稳步推进,这样才能够真正发挥出它的价值。尽管现在 AI 大模型在医疗行业的热度非常高,但是应该防止盲目地跟随潮流。他建议,首先要把数据安全确保好,将隐私保护强化起来。接着要推动行业能够有序发展。并且还应该构建起真正的多中心大数据体系,让多个医疗机构或者研究中心一同参与进来。按照统一的研究设计以及标准,协同地去收集、整合、存储和分析医疗大数据,以此避免重复建设的情况发生。
金属瞳孔
在核磁共振中游弋
算法编织的网
漏过几粒幻影
当人类掌心的温度
与光谱下生长的
答案重叠