4 月21 日消息来自IT 之家。大阪都会大学医学研究生院的Hirotaka Takita 博士与Daiju Ueda 副教授所领导的研究小组,近期发布了一项系统性回顾和荟萃分析。该分析深入评估了生成式人工智能(AI)在诊断医疗状况方面的表现,并且将其与医生进行了对比。
研究团队对总计18371 项研究进行了筛选,最终确定了83 项用于详细分析。这些被确定的研究涉及多种生成式AI 模型,像GPT-4 等,还有Llama3 70B、Gemini 1.5 Pro 以及Claude 3 Sonnet 等。并且这些研究覆盖了多个医疗领域。在这些模型中,GPT-4 是被研究最多的模型。结果表明,这些AI 模型的平均诊断准确率是52.1%,其95%置信区间在47.0%至57.1%之间。有部分模型的诊断准确率与非专家医生的准确率相近,二者之间不存在显着的统计差异,准确率的差异为0.6%,95%置信区间在-14.5%至15.7%之间,p 值为0.93。专家医生的表现比AI 好。其准确率的差距是15.8%。 95%置信区间为4.4%至27.1%,p 值为0.007。尽管如此,随着技术持续进步,这一差距有逐渐缩小的可能。
研究发现,AI 在大多数医学专科的表现较为一致,然而有两个专科例外,分别是皮肤科和泌尿科。在皮肤科,AI 的表现更为优秀,原因在于该领域涉及模式识别,而这恰是AI 的强项。但皮肤科也需要复杂的推理以及针对患者的决策,所以AI 的优势不能完全体现其在该领域的实际应用价值。泌尿科的研究结果仅依托于一项大型研究。所以,其结论的普适性在一定程度上受到了限制。
这项研究表明,生成式AI 的诊断能力和非专家医生是相当的。它能够被用于医学教育,对非专家医生进行支持,还能在医疗资源有限的地区协助进行诊断。 Hirotaka Takita 博士称,未来的研究需在更复杂的临床场景中展开评估,借助实际病历来进行性能评估,提升AI 决策的透明度,并且要在不同患者群体中进行验证,以此来进一步证实AI 的能力。
IT 之家留意到,该研究除了在诊断领域有所涉及外,还着重强调了生成式AI 在医学教育方面的潜力。研究人员表明:“当下生成式AI 模型在非专家的环境中所展现出的表现与医生是相当的,这就为把AI 整合到医学培训当中提供了契机。”AI 能够被用于模拟真实的病例,从而有助于医学生和受训者进行学习以及对他们的技能进行评估。
研究对这些模型的透明度和偏见存在担忧。许多AI 系统未公开训练数据的详细信息,这让人们对其结果是否适用于所有人群产生疑问。研究人员强调,透明度能确保对模型的知识、背景和局限性的理解,并且强调需要开发清晰、符合伦理且经过充分验证的AI 应用。
目前,生成式AI 有着巨大的潜力。然而,在涉及详细患者信息的复杂病例中,它仍面临着挑战。医生们是否需要担心自己会失去工作呢?目前还难以确定结论。但在诊断领域,这种情况是有发生的可能性的。