本报记者胡珉琦 袁一雪
结局超出了不少医生的预想,就像AlphaGo参加的围棋之战一样。
这是全球首场神经影像领域的“人机大战”。人类战队由25名神经影像领域的顶尖专家、学者以及优秀的临床医生组成,与他们对战的,是北京天坛医院“神经疾病人工智能研究中心”和首都医科大学人脑保护高精尖创新中心共同研发的AI辅助诊断系统“BioMind天医智”。
6月30日的总决赛现场,最终AI选手以高出20%的正确率,战胜了神经系统疾病诊断的医界“最强大脑”。
这位医学界“新星”究竟有多大本事?它的深度学习经历了怎样的训练?它会替代临床医生吗?
战胜25位人类医生
当天的比赛被分成了两个组别,其中A组进行的是颅内肿瘤磁共振检查(MRI)影像判读;B组进行脑血管疾病CT影像判读及血肿预测。前者要对脑肿瘤作出定性,后者验证脑出血第一次血肿扩大的风险。
首轮15位参赛医生,每人对15例影像进行判读,共225例。同时,相同数量的病例,AI选手耗时15分钟判读完毕,准确率最先显示为87%。又过了15分钟,计时结束,人类战队的成绩定格在66%。
这并没有打击医生们的自信心。事实上,在第二轮比赛中,10位医生不仅率先完成判读,还就其中不确定的答案进行了二次矫正。然而,卡着点交卷的AI选手还是以83%对63%的准确率,再次获胜。
这个结果足以让现场和通过直播视频观战的一线大夫们“消化”一段时间。
不过,就在比赛结束的那一刻,北京天坛医院神经影像学中心主任高培毅和血管神经病学中心副主任医师李娜算是放下了悬着的心,对AI选手长达半年的训练没有白费。同样感到欣慰的,还有BioMind创始人兼技术总监吴振洲。
对他们来说,AI当天的表现属意料之中。高培毅提到,在前期的练习中,它对脑肿瘤判定的准确率一度可达到95%。
但这不意味着医生战队的表现就有失水准。高培毅坦言,结果显示的就是国际上神经影像判读的正常水平。需要指出的是,由于比赛人为增加了难度,如果回到现实场景中,医生对脑肿瘤判定的准确率会高于比赛时的结果,与AI的差距更小。
国家神经系统疾病临床医学研究中心副主任、天坛医院常务副院长王拥军认为,这场人机大战的目的是“教育”。它可以解答许多临床医生的疑问:人工智能究竟有多大本事,以及我们是否会被替代?
“与AlphaGo战胜围棋9段选手一样,并不是AI的智力超越了人类,只是它们更勤奋,学习速度和稳定性都可以达到极致。”王拥军表示,作为一种工具,它必定能在某一单一特定任务中超越我们。
然而,医学并非单一的科学问题,临床医学也不是千篇一律的,病人的治疗、预后要结合家族史、社会经济地位等各种复杂因素,任何信息的微小变化都会引起复杂决策系统的波动,使医生产生截然不同的判断。医生这个职业不会消失。
“因此,我们对待人工智能,既不要小看它,也不必恐惧它。”王拥军表示。
能看到医生肉眼看不到的
人工智能与医疗的结合,是解决医疗“痛点”的新机遇。业内人士认为,将AI具体应用在医学影像的辅助诊断上,是最有可能率先实现商业化的。
一方面,医疗数据中有大量数据来自于医学影像,但这些数据几乎全部需要人工分析,而相应的医疗从业人员却非常短缺。有研究表明,目前我国医学影像数据年增长率约为30%,而放射科医师数量年增长率只有约4%,人工处理影像数据的负荷会越来越大。
高培毅希望,AI能把医生从一部分低附加值的、重复性的工作中解放出来,比如,“BioMind天医智”系统正式应用后,至少可以替代医生20%的工作时间。
另一方面,中国优质的医疗资源分布极不均衡。以复杂程度高、定位诊断难度大的神经系统疾病为例,在大量基层医院,临床的误诊率、漏诊率居高不下,诊断效率水平很低。
AI+神经影像,需要加强的是对医学影像数据的内容解读,帮助医生进一步提高影像诊断精准度,解决的问题是加强医生的诊断水平。
以此次人机大战中脑出血后血肿扩大的风险预测为例,李娜作为一名临床医生深知面对脑出血病人时的束手无策,一旦出现血肿扩大,致瘫、致死的几率会显著上升。目前,并没有十分有效的治疗办法。在基层医院,治疗的机会便更少了。
除非,能在出血或血肿扩大前准确预测,在时间窗内给出积极的治疗,比如止血治疗。遗憾的是,在临床上,仍只有20%~30%的病人能被提早识别。影像预测就像是该疾病治疗中无法挪动的绊脚石。
然而,经过上千病例的训练,“BioMind天医智”能在影像中看到医生肉眼看不到的疾病发展征象,给出医生更精准的判断提示。李娜认为,假以时日,这项技术可以帮医生提升对脑出血后血肿扩大的诊断认知,从而改进治疗方案,这对病人的治疗和预后将起到非常积极的作用。
为了让AI跟上医生的思路
目前,全世界范围内,在AI+医学影像领域,主要业务都涉及肺部结节和糖尿病性视网膜病变检测,因为这些病灶较为方便直观测量和诊断,可以很快帮助医生提升影像诊断效率。
不过,全世界最复杂的影像是大脑的影像,大脑疾病也是非常难攻克的。据王拥军介绍,至今还鲜有针对AI+神经影像的研究。
北京天坛医院“神经疾病人工智能研究中心”之所以可以深入这一领域,完全依赖于它独一无二的脑疾病大数据积累。
数据是人工智能深度学习算法所需的核心资源。天坛医院每年接诊来自全国各地的神经系统疑难杂症患者30万人次,仅脑部肿瘤年均手术量就达到了8000~10000台。
“对于很多医院来说,普遍存在的问题是一家医院的数据不足,需要多家医院数据的汇总。”上海交通大学生物医学工程学院教授钱大宏指出,“我们目前所关注的医学大数据的共享,需要做的是分布式共享,来让大家合理合法地获取多中心的数据。”
他表示,目前数据所有权比较复杂,如果将医院的数据直接拷贝并带出医院进行研究并不现实。“欧洲和美国已有数据保护条例,比如欧盟《通用数据保护条例》(简称GDPR)。这必将成为一个趋势,对数据的保护会越来越强。”
另外,吴振洲告诉《中国科学报》记者,“不像自然图像识别,医学研究领域没有足够的开源数据支持深度学习的算法,一开始我们花了很多时间进行数据的整理”。医疗影像数据与现实的物体不一样,可以快速直观地了解数据的内容,但需要在专业医生指导下才能读懂。为了让AI跟上医生的思路,吴振洲带领设计人员用了三四个月的时间学习了医学影像书籍。“我们先要对CT和MRI的影片有初步了解,才能帮助AI建模。”
据钱大宏介绍,AI学习医学影像的具体方法是深度学习结合先验知识对模型进行训练,过程中需要有经验的医生将医学图像进行标注,程序员将片子的数据注入深度学习中,再留些样本进行测试。
不同部位的算法不同,但是基本框架大同小异。他表示,有些不同的学习是在数据的预处理阶段,数据需要预处理,比如分割、配准、标注。预处理方式如果设置得好,对于深度学习效果就更好。在这方面,一般以医生的经验为主,程序员做出工具,帮助医生做分割和标注的工作。
“而AI需要学习数据的数量则由数据预处理标注的好坏决定,如果标注清晰、质量高,那么学习以‘千’为单位的影像片数量就足够了。”钱大宏补充道。
高培毅也强调,由于大多数标注依赖人工识别,因此数据标注将耗费医生很大的人力和时间,在医疗影像领域获取具有高可靠性的标注数据是一个重要挑战。如果数据标注没有足够的时间精雕细琢,AI所学习的知识就是粗糙的,甚至可能学坏。
吴振洲提到,不同部位影像对AI来说学习难度也不同。脑部影像数据相当复杂,比如MRI影像扫描就包括很多层面和扫描序列。在临床中,有些医生作出诊断时并不需要用到所有数据,比如,天坛医院的医生不需要扫描全部序列就足以得出判断结论。因此,我们获取的数据序列统一性不好。再者,难度比较大的是罕见病例的学习,由于罕见病例数量少,最终,我们采用了迁移学习和半监督的方法学习。
归根结底,AI学习必须依赖医生的“教导”,医生对不同疾病的诊断思路和方法不同,AI的学习也要找到最符合该疾病规律的方法。因此,AI学习效率的提升必定是人工智能专家与医学专家深度配合的结果。
目标是真正进入临床
据悉,目前“BioMind天医智”在部分脑瘤的磁共振影像诊断上,准确率已达到90%以上,相当于一个高级职称医师级别的水平;准确预测脑出血和血肿的扩大则是达到了人类很难达到的水平,但对它们的训练仍在进行中。
同时,该AI产品已经进入国家药监局(CFDA)验证阶段。相比中国,美国FDA对于医疗人工智能产品的审批走得更快。今年,美国多款辅助诊断类AI产品已经通过审核。
王拥军表示,AI产品的验证必须符合两个标准:其一,要达到大型综合医院副教授以上医师的水平;其二,使用该产品与不使用该产品的基层医院,前者医生的业务能力须提高20%。“AI产品除了是辅助基层医生的工具,更是帮助他们如何阅读、诊断、预测片子的学习和培训工具。这也意味着,它不仅解决诊断问题,还应该解决基层医生培养的问题。”
最终,人工智能辅助诊断产品的应用能否得到国家诊疗指南的推荐,还需要进一步的实践证据——除了提升医生的工作效率,AI产品到底能让患者获得多大的收益?理论上,使用该产品应该对神经疾病复发、死亡、致残的下降有所贡献。
因此,天坛医院将采用国际上最新的研究设计方法——整群随机对照研究,将几十家医院分为干预组和对照组,验证使用该产品和不使用该产品的患者诊疗结果的差异。
根据计划,“BioMind天医智”系统还将覆盖更多头部疾病的辅助诊断,包括脑肿瘤、小血管病变、大血管病变、脑卒中等,因此,AI还需拓展更多学习的领域。
此外,钱大宏提到,事实上,AI目前正学习使用多模态数据监测。所谓多模态数据监测,就是让AI能像医生一样,利用各种影像和临床数据,比如生化指标、遗传基因,甚至是疾病史、生活习惯、生活环境等信息,作出综合判断,辅助更多的医疗决策。
正如王拥军所期待的,除了医学影像,人工智能更宏大的目标是能真正进入临床,在患者风险划分、治疗辅助决策、手术介入等方面都能发挥其优势作用。
《中国科学报》 (2018-08-10 第1版 要闻)