作者:Hripsime Kalanderian, MD. Henry A. Nasrallah, MD.
提到人工智能(AI),很多人首先想到的就是可以说话、还能做些事情的机器人。然而,AI远不只是机器人和机器。
一般认为,上世纪五十年代,斯坦福大学John McCarthy教授首次提出了AI的概念;继续向前追溯,英国数学家图灵是AI研究的先驱之一,设计了首个确定电脑程序是否具有智能的测试——图灵测试。如今,AI已成为医学的一部分,包括精神医学。
AI基本概念
AI有两个子集——机器学习和深度学习。机器学习指可以自动分析数据模式、并使用该模式预测未来数据的一系列方法。深度学习则是机器学习的一种形式:电脑通过既往经历进行学习,并建立具有阶层结构的概念系统,以理解世界。
机器学习既可以在监督下进行,即「监督学习」;也可以是半监督或无监督的。目前大部分机器学习属于监督学习:研究者为所有数据打上标签,训练算法学习输入到输出的映射函数。无监督学习中,所有数据均无标签,由算法自行构建数据下的潜在结构。半监督学习是上述两者的结合。
很多研究者还将AI分为两类,即强AI和弱AI,后者又称狭隘AI。前者能以至少等同于人类的水平进行思考,能体验到情绪,甚至拥有自我意识;弱AI通常指为电脑增加「类似于思考」的属性,让其成为对人类更加有用的工具。目前,几乎所有可用的AI技术仍被视为弱AI。
医疗领域中的AI
很多医疗领域内,人们正在对AI的用途进行发掘,如通过学习电子病历系统等健康管理系统得到有用的信息,并指导医师进行治疗决策。在精神科之外的很多专科,AI已经崭露头角,表现不亚于甚至超过人类专家:
眼科:已有多项研究评估了AI筛查糖尿病视网膜病变(俗称「糖网」)的能力,后者是全球范围内增长最快的致盲原因之一。如近期的一项研究中,接受了128,000张视网膜图像数据的训练后,一种深度学习算法在检测有临床意义的糖尿病视网膜病变方面显示出了较高的敏感性及特异性。
心内科:有研究者使用284,335名患者的视网膜眼底图像数据集训练了一种深度学习算法,该算法预测个体未来5年内心血管风险的准确率为70%。值得注意的是,该算法基于年龄、性别、吸烟状态、收缩压等高危因素评估风险,而这些风险过去被认为无法在视网膜图像中加以量化。
另外,英国研究者评估了一种机器学习算法对个体未来10年内首发心血管事件风险的预测效力,并将其与基于美国心脏病学会(ACC)风险评估指南的预测进行了比较。结果显示,该算法可显著提高心血管风险预测的准确性。
放射科:Thomas Jefferson大学医院放射科的研究者训练了两种卷积神经网络(CNNs)——AlexNet和GoogleNet,并用于鉴别150张胸片是否存在结核。结果显示,CNNs准确识别结核存在与否的曲线下面积(AUC)为0.99,且两种网络相结合时表现最好,识别准确率达96%。
卒中:ALADIN研究比较了一种AI算法与两名训练有素的神经科医生识别300张CT片大动脉闭塞的表现。该算法的敏感性为97%,特异性为52%,准确率为78%。
外科:AI技术加持下的外科机器人已问世多年,最有名的可能是达芬奇手术机器人系统,2000年获FDA批准用于腹腔镜手术。此外,McGill大学的研究者研发了一种名为「McSleepy」的麻醉用机器人,可分析患者的生物学资料及识别功能异常,同时「见机行事」。
皮肤科:一项研究中,研究者比较了深度CNNs与21名认证皮肤科医师在2,000张图片中识别皮肤癌的能力,真实患病情况已通过尸检加以确认。结果显示,CNNs的表现不亚于皮肤科专家。
病理科:同样是与人类专家进行比较,一种CNN在显微镜下成功识别出92.4%的乳腺癌淋巴转移,而病理科医生的敏感性为73.2%。
精神科与AI
事实上,AI应用于精神科已有数十年的历史。最早的例子之一是电脑程序ELIZA。该程序由麻省理工学院教授Joseph Weizenbaum于1966年发布,包括一个语言分析器,以及围绕某一特定主题的脚本或一套即兴发挥的规则,旨在模拟一名人本主义流派的心理治疗师。
此后,AI在精神科的应用取得了很多研究成果。例如,一项研究对AI识别存在自杀观念个体的能力进行了评估,共纳入34名受试者,有及无自杀观念者各17人。基于特定的神经学印记,机器学习算法鉴别两类人群的准确率为91%,而鉴别有无自杀未遂者的准确率达94%。
辛辛那提大学的研究者进行了一项探索:使用机器学习及自然语言进程,区分真正的「自杀笔记」及由健康志愿者撰写的虚假的自杀笔记。11名精神科专业人士(精神科医生、社工、急诊医师)及31名三年级住院医对66个笔记进行了鉴别,并与9种机器学习算法的表现进行了比较。结果显示,表现最佳的算法准确地鉴别了78%的笔记,精神科专业人士的准确率为63%,住院医为49%。
范德堡大学的研究者则尝试基于机器学习方法预测自杀风险。他们开发了一套算法,对5,167名成人的电子病历进行了分析,其中3,250人曾自杀未遂。通过对患者自杀未遂2年至1周前的数据进行回顾,该算法找到了自杀未遂的预测因素,包括复发性抑郁、精神病性症状及物质使用。在这一背景下,预测一名患者是否会在随后2年内尝试自杀时,该算法的准确率为80%;若时间窗缩窄至随后1周,准确率为84%。
一项前瞻性研究中,辛辛那提儿童医院的研究者使用机器学习算法对379人进行了评估。这些受试者被分为三组,包括有自杀倾向者、罹患精神障碍但无自杀倾向者及对照,所有受试者完成了一套标准化的行为评定量表及半结构化访谈。基于患者的语言及声学特征,该算法将受试者进行归类的准确率达85%。
此外,还有很多研究者尝试使用语言分析预测高危个体向精神病的转化风险。例如一项研究中,高危个体被要求复述一段故事,并回答有关该故事的问题。研究者使用这些访谈素材训练算法,由算法对素材的语义连贯性、语法复杂性及其他因素进行分析。结果显示,该算法预测个体转化与否的准确率为82%;最终转化为精神病的高危个体中,语义连贯性及语法复杂性较差。
与之类似,另一项研究共纳入了34名精神病高危青少年个体,使用算法分析其语言模式,以预测其转化风险。这些受试者接受了基线访谈,并在随后的2.5年内每季度接受一次评估。该算法的准确率达到了100%。
挑战与局限性
随着人们对于精神科应用AI兴趣的增加,偏倚风险及人类自身对于机器学习不同阶段的影响也逐渐得到了关注。有必要对数据收集及处理环节进行细化,并持续评估机器学习模型与研究课题之间的相关性,这些措施或有助于尽可能降低偏倚及人为因素的影响。
与其他创新的、快速发展的技术一样,AI也面临着批评及人们的顾虑。例如,很多人批评AI可能威胁个人隐私,造成医疗差错,以及带来伦理学上的顾虑。斯坦福生物医学伦理中心的研究者强调,警惕人类因素或算法设计可能为健康数据带来的不同类型的偏倚;英国Nuffield生物伦理委员会也强调了医疗领域使用AI的伦理学相关问题。一些常见的顾虑包括:AI可能做出错误的决策,以及这种错误应由谁负责;难以判断AI系统输出的有效性;AI可能被用于不良目的等。
对于考虑在临床工作中使用AI技术的医生而言,有必要确定AI在工作流及决策制定过程中的位置。例如,研究者Jeffery Axt鼓励医生将AI作为「咨询性」的工具。
前景
一些大公司已经关注到了AI在精神科的应用潜力。例如,IBM正在建设一个自动化语言分析应用系统,通过机器学习算法对患者的精神健康状况进行实时评估。社交媒体平台也开始整合AI技术,试图找到提示自杀观念及行为的语言及图片。
「聊天机器人」(Chat bots)也逐渐流行起来。Woebot是一种基于认知行为疗法的聊天机器人,由斯坦福大学的一名心理学家设计,可经由Facebook Messenger接入。一项为期2周的研究中,70名18-28岁抑郁患者被随机分入两组,分别使用Woebot或阅读精神卫生相关电子书。基于PHQ-9量表,Woebot组受试者研究结束时的抑郁症状较前显著改善,而阅读组则无此现象。
其他研究者则将目光聚焦于儿童,尝试基于计算机视觉、机器学习及数据挖掘等手段找到儿童注意受损、多动及冲动的某些模式。德克萨斯大学阿灵顿分校及耶鲁大学正在分析儿童在执行特定任务时表现的数据,并取得了一些进展。例如,机器学习有助于找到可能提示孤独症的凝视模式异常。
南加利福尼亚大学开展了一项名为SimSensei/Multisense的项目,使用软件追踪个体的实时行为表现,如面部表情、体态及发声学特征等,以识别其心理压力状况。此外,该软件还内置了一个虚拟人类平台,以治疗师的方式与患者进行沟通。
结语
AI用于医疗领域的前景似乎一片光明。暂且放下对「机器可能替代人类」的恐惧,AI有朝一日很可能变革医疗,让患者接收到远优于目前的治疗和关爱。
信源:Hripsime Kalanderian, Henry A. Nasrallah. Artificial intelligence in psychiatry. Current Psychiatry. 2019 August;18(8):33-38
领取专属 10元无门槛券
私享最新 技术干货