本期推荐论文
Status and Direction of Healthcare Data in Korea for Artificial Intelligence
作者:Yu Rang Park, Soo-Yong Shin
刊载于:Hanyang Medical Reviews
刊载时间:November 30, 2017
主要内容:
人工智能(AI)的快速发展和深度学习方法,在许多领域产生了重大变革。但是,医疗方面的AI不能仅仅依赖累积大量数据的简单方法。医疗需要精心规划的数据,而不是简单的数据聚合。本文以此为目标,分为两大部分,分别介绍了医疗保健数据的类型和特征,以及人工智能和医疗保健在未来成功结合的方向。
医疗保健数据的类型
本文将医疗保健数据分为六类,分别是临床数据、索赔数据、研究数据、基因组数据、患者生成的健康数据(Patient-generated health data, PGHD)和健康的社会决定因素(Social determinants of health,SDOH)。
临床数据是在医疗机构、医院、诊所等临床环境中获得的,包括人口统计信息、诊断信息、治疗信息、生理监测数据等。以电子方式存储的临床数据被认为是医疗保健中最重要的数据类型。临床数据的代表性信息系统有电子病历系统、计算机化医嘱输入系统、图片存档和通信系统以及实验室信息管理系统等。
索赔数据描述了保险索赔的账单信息。索赔数据可以由政府机构(例如,韩国的健康保险审查和评估服务)或私人保险公司访问。索赔数据的优点在于,它可以通过组合索赔信息,提供来自多个医院或诊所的大量患者的横向数据以及单个个体的纵向数据。
研究数据包括来自生物实验室的实验结果、已发表的研究论文的相关数据和临床试验数据。
基因组数据可以从科研机构的基因组研究或医院的基因测序中获得。鉴于测序技术的快速发展,已经有许多人强调基因组数据是个性化医疗或精准医疗的关键数据类型。
患者生成的健康数据(PGHD)是由患者创建、记录或收集的医疗相关数据。换言之,PGHD是在临床环境之外收集的健康数据。通常,PGHD由医疗保健的可移动设备、家庭健康监测设备或自我报告的方式收集。
健康的社会决定因素(SDOH)是关于人们出生、成长、工作和生活的条件的数据,例如性别、社会和政治环境、天气或环境因素。PGHD的重点是人体生成的生活数据,而SDOH的重点是个人无法控制的环境数据。
总之,基因组数据可能是个人健康状况的蓝图,而SDOH是影响健康状况的重要因素,因为它们甚至可以改变蓝图,即表观基因组学。临床数据和PGHD分别是健康状况的间歇性和持续性监测结果。可以说基因组数据和SDOH是医疗状况的输入信息,而临床数据和PGHD是医疗状况的输出数据。研究数据则两者兼备,需要具体判断。
现状与未来
第一种数据类型,即临床数据方面,如果要将机器学习的方法应用于医疗保健数据,就应首先将数据存储在信息系统而不是物理文档中。系统的数据需要具备良好的组织和结构。而韩国电子病历系统中的大多数数据都是以非结构化的文本格式编写的。医生常常使用带有许多缩略语的自由文本描述患者的状况。这使得韩国的电子病历系统成为简单的文字处理器。与电子病历的数据相比,其余的临床数据(如订单数据,实验室和图像数据)的结构相对较好,例如订单数据是用于计费目的的编码数据。
作者认为,为克服临床数据的现存障碍,首先,必须实施数据结构化。应当应用标准化的模型,以准确、完整地输入数据,排除歧义并增强语义的互操作性。这些模型包括临床内容模型(CCM)、国际标准化组织(ISO)13606和临床信息建模倡议(CIMI)等。其次,还要从现有的文本文档中提取有意义的信息,开发临床自然语言处理(NLP)的方法。
第二类为索赔数据。韩国的国家保险服务覆盖了总人口的97.1%,因此韩国的索赔数据几乎可以提供所有人口的信息。虽然索赔数据不包括临床实践的结果,但它可以提供多家医院报告的纵向病史。因此,目前,索赔数据和临床数据是使用最广泛的医疗数据类型。
但是,索赔数据仅包含诊断、药物信息等内容,无法进行测试结果的详细分析。同时医院的临床数据与索赔数据之间也可能产生不一致。因此,应谨慎使用索赔数据。此外,各家医院也有必要在计价中采用标准化的术语。
第三类——研究数据在医疗中的重要性也越来越高。但是作者认为我们也需要谨慎使用研究数据,因为研究结果会不断修订和更新。此外,利用研究数据也需要与外部的IT系统相对接,利用外部的数据库资源。
第四类数据,即基因组数据的问题在于其解读的不稳定性。由于存在不同的测序平台和分析路径,即使相同材料也可能得出不同的解释结果。因此学者们仍对临床基因测序的可靠性抱有怀疑。作者认为可以在质量控制和基因型-表型知识库(genotype–phenotype knowledgebase)的构建方面继续做出努力。
第五种数据PGHD与第四类的基因组数据被视为未来五年内人们最为看好的数据类型。在不断的收集中,PGHD能够以其间断性的观测结果补充临床数据。然而,PGHD仍然是新兴领域,并未很好地融入当前的临床实践中。PGHD的另一个限制是其准确性和互操作性,这一点特别体现在移动设备得到的检测结果中。作者相信,随着技术的发展其准确性将进一步得到提高,达到足以与专业医疗设备相对接的程度;或者通过统筹不同医疗保健移动设备的数据,实现连续监测。相关的标准化工作也在进行中。
最后一类数据SDOH能够反映出患者的长期治疗历史。例如,邮政编码可能比基因组信息更能反映个人享受的医疗保健条件。因此,应积极将SDOH纳入临床实践和医疗人工智能的开发。此外,由于SDOH数据可以不经医院帮助,直接从个人处收集,因此其利用也更为简便。
结论
机器学习的技术已经证明了它们在医疗保健领域应用的可行性。然而,目前的医疗保健AI研究并未充分利用各种医疗数据。包括医生在内的医疗数据生成者应该尝试提高医疗数据的可靠性和准确性。
为了提高医疗数据的质量并聚集更多机构的数据,医院应采用医疗数据的统一标准。例如,使用通用数据模型(CDM)进行大数据研究,基于标准术语保证数据的互操作性。此外,CDM可以以一种标准化、易于使用的格式兼容不同类型的医疗保健监测数据。
领取专属 10元无门槛券
私享最新 技术干货