一项新研究显示,放射科医师在人工智能的辅助下对乳腺癌的筛查比单独工作时更成功。同样的人工智能算法在放射科医师手中也会比独自运行产生更准确的结果。


这项基于大样本的研究论文,于近期发表在《柳叶刀-数字医疗》杂志上,论文作者们首次在人工智能单独使用和帮助人类专家两种情况下,直接对比了其在乳腺癌筛查中的性能表现。


人们希望这种人工智能系统能够通过发现医生误诊的病例从而拯救生命,能够让放射科医生诊断更多的病人,并能够在极度缺乏专家的地方减轻医疗负担。


研究中测试的人工智能软件来自总部位于德国的初创公司,该公司也主持了这项研究。该公司的人工智能系统已经在德国超过四分之一的乳腺癌筛查中心中使用,并于今年早些时候被先后引入到了墨西哥和希腊的两家医院。


在德国埃森大学医院和美国纽约斯隆-凯特琳癌症中心放射科医师的帮助下, 团队测试了两种策略。第一种策略是,由人工智能算法单独分析乳房 X 光影像。


另一种策略是,由人工智能软件自动区分它认为看起来正常的扫描图像和那些需要引起关注的图像。软件将后者交给一位放射科医生,而医生会在获取人工智能的评估之前对图像进行检查。然后,如果智能算法检测到了医生没能发现的癌症迹象,它就会发出提醒信息。


▲图 | 公司人工智能算法软件界面细节:分析乳房 X 光影像中的癌症迹象(来源:)

为了训练人工智能软件的神经网络模型, 公司将超过 367,000 张乳房 X 光扫描图像数据输入人工智能模型,数据中还包括了放射科医师的标注,初始诊断评估,和病人是否最终患上癌症的相关信息,从而让模型学习如何把这些图像分为三类:“确定正常”,“不确定”(对是否患癌不做预测),“确定患癌。”


随后,研究人员将这两种策略的诊断结果与放射科专家对筛查中心 82,851 张乳房 X 光图像所做的初步诊断进行比较,当然这些图像先前并没有用于训练人工智能算法。


对比结果显示,第二种策略——医生和人工智能协同工作——在乳腺癌检测准确率上比独自工作的医生高 2.6%,而且产生的虚假警报也更少。它在实现上述准确性提升的同时,还能自动将被归为正常的图像剔除,而这些正常的图像样本占所有乳房 X 光图像的 63%。这种大程度的任务精简能够减轻放射科医师的工作量。


经过乳腺癌筛查后,扫描影像正常的患者可以自行离开,而图像异常或不明确的患者需要进行后续检查。但是负责检查乳房 X 光图像的放射科医生常常会漏掉八分之一的癌症病例。


在放射科医生查看数千张扫描图像时,疲劳、加班、甚至一天中的特定时刻,都会影响其识别肿瘤的准确程度。癌症患者的图像在视觉上细微的迹象通常也不容易引起注意,而致密的乳腺组织——大部分集中在年轻患者——使癌症迹象更难被发现。


德国法律要求,实际使用人工智能的放射科医生必须检查每一张乳房 X 光片,至少要看一眼人工智能标记为正常的那些片子。尽管放射科医生总是可以拒绝人工智能算法的诊断结果,但算法仍然可以帮助他们预先填写被标记为正常的扫描报告。


作为德国一家乳腺癌筛查中心的负责人,放射科医生蒂洛·托尔纳()已经使用这个人工智能软件两年了。当人工智能将 X 光片标记为“确定正常”时,他偶尔需要否定这个诊断,并手动填写报告以反映不同的诊断结果,但他说,“正常图像几乎总是能被正确标记。”大多数情况下,“你只需按回车键。”


只有在医生提供了初步的、独立的评估之后,被人工智能标记为模棱两可或“确定患癌”的乳房 X 光片才会被转给一位放射科医师。


放射科医师将乳房 X 光片按 0 到 6 级进行分类,称为 BI-RADS(Breast imaging reporting and data system,临床乳腺影像分级诊断),其中级别越低越健康。3 级表明病变可能是良性的,但值得仔细检查。如果 公司的软件将放射科医师认为正常的乳房 X 光片的 BI-RADS 评分定为 3 分或更高,那么警示信息就会出现。


人工智能通常擅长于图像分类,但为什么 公司的人工智能本身的表现不如一个单独的医生呢?部分问题在于,仅凭乳房 X 光检查并不能确定某人是否患有癌症——需要切下并检测看起来异常组织。相反,人工智能只会检查乳房 X 光照片以寻找癌症的踪迹。


这项研究的主要作者克里斯蒂安·莱比格(),也是 公司的机器学习技术负责人,他说健康乳房和癌变乳房的 X 光影像有时候看起来非常相似,而且两种类型的影像都可能呈现出丰富的视觉内容。


这使人工智能算法的训练复杂化,并且乳腺癌筛查中癌症的低患病率也会使训练更困难(根据的说法,“在德国,患病率大约是千分之六”)。由于能够识别癌症的人工智能算法大多是通过健康的乳房影像数据进行训练的,它们很容易预测出假阳性。


这项研究只在过去的乳房 X 光诊断数据上测试了该人工智能算法,并假设人工智能每次给出“确定正常”或“确定患癌”的结论时,放射科医生都会认同这个诊断。当人工智能无法确定时,该研究默认放射科医生的初始诊断是正确的。


这表明该研究并不能测试人工智能的利用会给放射科医生的诊断造成多大影响,以及任何这些影响是否会带来新的风险。承认,他在 公司的软件标记为正常的影像上所花的时间,比那些软件认为可疑的图像要少。他说:“你对标为正常的影像能处理得很快,因为你对这个智能系统很有信心。”

斯坦福大学医药和影像人工智能中心主任柯蒂斯·朗洛茨()对上述研究工作称赞有加,但他表示,下一步需要验证人工智能在有真实患者的实际临床中长期表现如何。


到目前为止,用人工智能完全取代放射科医师的尝试已经失败了。2021 年的一项综述研究发现,在 36 项此类研究中,有 34 项发现人工智能算法在利用乳房 X 光片筛查乳腺癌方面的表现比单个放射科医生要差。所有 36 项研究都表明,人工智能的准确性不如一些国家规定的两名放射科医生共同诊断。


“我们经常说,人工智能不会取代放射科医生,”说,“这项研究并没有改变这一点,但在研究中提出的人工智能辅助诊断的过程,近四分之三的筛查工作不需要由放射科医生亲自复审,同时提高了整体筛查准确率。”他说,这是“开创性的”。


补充说,这种方法可以缓解放射科医生的短缺问题,特别是在马拉维这样的国家,每 880 万人才有一名放射科医生,或者是拥有 14 亿人口的印度,平均每 10 万人里只有 1 个放射科医师提供服务。即使是放射科医生数量 10 倍于印度的美国,预计到 2033 年,也将有 1.7 万的医师缺口。

乐观地认为,越多放射科医生使用人工智能将意味着能越早地发现乳腺癌,这将会提高人们的癌症存活率。他还希望 公司能帮助消除大量的假阳性病例——这些病患被召回进行进一步检测然而实际上很健康。