在生命健康领域,人工智能(AI)模型开始发挥重要作用。AI 能够协助医生查看影像报告并分析病情,还能帮助科研人员总结大量论文、预测疾病机制以及加速药物研发。随着 Deepseek 这样性能强大的开源大模型的出现,生命健康行业迎来了发展的机遇,从业者能够以更低的成本开发出更优质的商业产品。
大模型在生命健康领域的应用情况如何?又存在哪些机遇与挑战呢?2 月 21 日,在上海全球开发者先锋大会(GDC)的“开源语言大模型与 AI for Science 在生命健康领域的介绍与应用”工作坊里,多位 AI 专家以及产品开发者针对这些问题展开了探讨。
开源语言大模型与 AI for Science 在生命健康领域的介绍情况以及应用情况的工作坊现场
大模型:从通用到专业
为什么大模型能够“能聊天”且能应用在生命科学研究、医学诊疗的各个环节呢?在工作坊中,几位演讲者介绍了 AI 大模型的原理。其核心是模型通过学习大量真实数据,对数据的概率分布进行理解,以此作出逼近现实的预测。
如果要在“我”与“你”之间进行填空,那应该如何填呢?在武侠小说当中,“打”这个字出现的频率可能会比较高;而在爱情小说里,“爱”这个字出现的次数可能会比较多。语言大模型能够预测在不同的语境中,到底填哪个字的可能性是最高的。
在目前广泛采用的 Transformer 架构中,输入的文本会被转化为数学向量形式。词与词之间的关联概率能够用向量距离来进行度量。模型会对这些向量进行比较,并且计算出它们之间的“注意力权重”。通过这样的方式,能够确定哪些词对当前词更为重要。这就是“自注意力”(Self-Attention)的算法机制。
朱代辉说,这种机制能让模型在处理序列数据时,把所有位置的信息都考虑在内,并且能够动态地确定哪些信息更为重要。为使模型在不同上下文中捕捉到不同信息,Transformer 模型会把注意力权重维度分成多组同时进行计算,每组关注序列中的不同部分,最后将这些结果合并起来。这种“多头注意力”机制能够起到帮助模型的作用,让模型从多个不同的角度去理解句子。
这些注意力权重接着会被输入一种神经网络中进行计算,这种神经网络是“前馈神经网络”(Feed-Forward Neural Network)。这种神经网络模型具有多层节点,这些节点对应着数据的特征。它能够协助模型对数据进行“深度学习”,从而发现其中更复杂的模式。
这些模块是层层堆叠的,会产生大量参数去描述数据。通过进行调整,这些模型不但能够学习语言,还能够学习图像、音频以及 DNA 序列、蛋白质结构等不同模态的数据,并且把它们进行统一的表示。当参数和数据量达到一定的规模后,模型就好像“开窍”了一样,会涌现出分类、预测、生成的能力。
要达到这种效果需要投入大量的数据和算力成本。专注于应用的开发者能够在这些已经拥有一定认知能力的通用大模型之上,对算法和数据进行调整,从而开发出适用于特定任务的专业大模型。
联合利华数据 AI 总监杨荟是计算生物学博士,他介绍了多款生命科学和医学领域的大模型,如 Biobert、SCGPT、Evo 等,这些大模型可用于基因、蛋白质等多组学信息的整合,也可用于药物靶点发现与分子设计,还可用于医学图像分析等场景。
能看文献,能做研究,也能诊断
杨荟提到,大模型已经成为辅助生命科学和医学研究的得力助手。
一天我看到家里的塑料袋被某些虫子分泌的物质腐蚀了。我突然有了灵感,接着通过 Chatgpt 的 Deep research(深度研究)功能去询问,是否有昆虫分泌蛋白质降解塑料的研究。AI 最终帮我找到了西班牙的一项研究,在这项研究中发现,一种飞蛾幼虫能够分泌两种能够降解塑料的蛋白质。
随后,杨荟借助 AI 提供的资料,找到了这两种蛋白质在数据库里的信息。其中一种蛋白质的信息已经被解析出来了,并且可以看出实际结果与蛋白质结构预测 AI 给出的结果较为接近。
一名开发者介绍了一款 AI 产品“txyz”,它在医学和生物领域很流行。该平台基于 Chatgpt 开发,能帮助用户快速查找和精读论文,还能根据论文形成准确的综合性回答,从而帮助科研人员快速获取知识。
AI 大模型快速具备“理解”文献的能力,此能力可用于从海量论文中提取关于生命和疾病规律的关键结论,像药物作用的靶点、疾病机制等。接着,再利用这些信息与其他实验数据来建立能够预测生命和疾病活动的模型。这一做法被一些人称作生命的“数字孪生”(digital twin)。
近年来,科技在不断进步,数据也日益增多,然而药物研发的成功率却呈现出走低的趋势,其主要原因是对药理机制的理解存在欠缺。焕一生物的副总裁蔡俊杰向澎湃科技表示,数字孪生能够通过模拟人体对药物的反应,从病理的角度对实验结果进行预测,从而使药物研发少走一些弯路。
开源大模型的性能得到了提升,这为数字孪生产品开发者带来了新的机遇。蔡俊杰表示,公开数据库中有 3700 万篇医学文献,经过计算,如果调用 Chatgpt 的接口来提取和收集其中的机制和参数等知识,需要花费几千万甚至上亿美元。而现在有了性能同样强劲的开源模型 Deepseek,就能够显著降低成本。
在医学诊断领域,AI 大模型正助力医生提升效率,并且能够取代部分工作。上海科莫生医疗科技有限公司的张浩曦向大家分享了他们所开发的染色体核型分析 AI 平台。
在胚胎发育以及细胞分裂的过程中,DNA 会紧密地压缩在一起,从而形成我们能够观测到的染色体。这些染色体的功能和形态保持正常是非常重要的。“50%的自然流产是由染色体异常所导致的。并且由于漏检等原因,在每 150 个新生儿当中,平均会有 1 个存在染色体异常,这通常意味着会出现畸形或者基因病,这是一件令人感到悲伤的事情。”张浩曦说道。
染色体核型分析是医生用以排除染色体异常的主要方式。人类拥有 23 对染色体,然而在观测过程中,它们往往并非成对呈现。在核型分析里,医生需要进行“看图配对”的操作,接着再与正常的染色体进行对比,以查看是否存在缺失、重复等异常情况。
这个过程的周期比较长,并且十分枯燥,还很费眼睛,这使得医生也感到很疲劳。张浩曦表示,科莫生开发了一种核型分析大模型,此模型能够帮助医生对染色体图像进行自动识别、配对以及分析。目前,该产品已经获得了四川省的二类医疗器械证。
原先拿染色体报告需要 28 天,现在在 AI 的辅助下 1 天就能出。他表示,这提升了核型检测的效率,减少了成本,扩大了医院的诊疗能力。因为做得快了,所以除了孕检之外,像那些可能接触辐射的高危人群以及有需要的人都可以去做。
挑战与风险
生命科学研究注重专业性与准确性,医学诊断直接关乎患者的福祉。AI 大模型虽在各应用场景快速落地,然而仍存在诸多风险与挑战,需开发者和政策标准制定者一同面对并克服。
在西湖大学博士研究生燕阳看来,AI 辅助诊断存在诸多风险。比如询问大模型孕妇能用什么药时,它会提示四环素可使用,然而实际上这个药是绝对不能用的。大模型之所以不知道,是因为它未曾学到过相关知识。
他介绍,在大语言模型里,数据训练的本质在于尽可能接近训练数据。若数据完整、准确且质量高,回答的质量就会高。若前面出现错误,就会致使后续生成中错误不断累积,进而导致答案失真。
因此,AI 产品开发者共同关注追求更高质量数据这一主题。燕阳觉得,很多人在生命健康领域数据的认识方面存在误区,这使得产品开发陷入瓶颈,甚至还会产生风险。
有人认为有海量数据就能训练好模型,且数据越多模型性能就越好,然而这种观点是不正确的。他表示,医院数据通常是非标准化的,像医嘱以及不同设备所产生的检测结果等情况,难以直接用于训练 AI 模型。还有一些数据缺乏标注,这可能会致使模型学习到的概率分布偏离真实的医学推理逻辑。
比如,有超过 90%的胸片报告只是标注异常结果,要是结果正常就不会有标注。这样一来,AI 可能会领会到“若没有标注,那就是正常”的这种逻辑。然而,这明显是不正确的,会使得误检率升高。燕阳进行了举例说明。
因为缺少更完整的医学数据,部分医学 AI 研究或许会尝试采用数据“蒸馏”的方式,即利用 GPT 等大模型来生成数据,接着用这些生成的数据去训练自身参数相对较少的模型。这种做法的益处在于能够使小模型接近大模型的能力,然而其弊端是大模型的输出本身或许存在问题。
通用的大模型通常缺少医学知识,这可能致使对罕见病等疾病的忽视。小模型把这些倾向当作“事实”来学习,从而可能会变得“过度自信”并且容易犯错。他表示。
燕阳觉得,这些问题能够通过使数据更为完整且专业的方式来予以解决。例如,可以增添专家标注以及更多的医学知识,让 AI 学会“是什么”以及“为什么”。同时,还能够通过展示推理轨迹(CoT)等算法来对 AI 的推理过程进行完善,将自相矛盾或者错误的逻辑剔除掉。
国内首个 AI 安全研究员朱小虎告知澎湃科技,在风险评估方面,大语言模型已呈现出欺骗等问题,还能避免自身毁灭以及传播对人有害的信息。他表示,基于专业知识的医学模型相对要好很多。但若这些模型是以通用大模型为基座进行训练,底层的倾向可能会传递到模型中。
据悉,2025 年的全球开发者先锋大会在 2 月 21 日到 2 月 23 日期间于上海举行。这次大会的主题是“模塑全球,无限可能”。大会的目的是培育人工智能产业集群,推动基础大模型与算力、语料、垂类应用场景等人工智能企业实现深度融合,从而打造一个以开发者为中心的开发者节。