数据是开展真实世界研究(RWS),形成真实世界证据(RWE)的基础[1]。按数据获取方式,RWE 可分为前瞻性收集的数据(如实效性临床试验和患者登记研究[2])和回顾性数据库的数据。近年来,回顾性数据库研究越来越受医疗卫生决策者、临床医生、研究者的重视,相关研究报告也越来越多[3,4-5]。虽然此类研究数量急剧增长,但回顾性数据库的利用仍存在很多问题:① 过度强调回顾性数据资源的价值和重要性,对回顾性数据处理的复杂性认识不够;② 强调回顾性数据的海量信息,却忽略了数据质量的重要性;③ 对回顾性数据库认识不全面,低估了这些数据可能产生的重要研究证据。针对以上问题,本文将着重介绍回顾性数据库研究的特征、作用和如何运用数据库进行 RWS,帮助读者正确合理地生产和使用基于回顾性数据的 RWE。
1 回顾性数据库研究的概念与基本特征
2003 年国际药物经济学与结果研究协会(ISPOR)发布的《回顾性数据库研究质量评价条目》提出回顾性数据库是指在研究开始前已经存在的、基于医疗和决策管理目的所形成的数据库,其并非针对特定研究问题收集数据而形成[6]。2009 年 ISPOR 进一步发布系列指南[7-9],再次提到了“回顾性数据库”。不同组织对回顾性数据库有不同的称呼,但其本质相同,均为“并非基于研究目的收集”、“研究开始前已存在”的数据库。如常规收集的卫生数据(routinely collected health data)[10]、二次数据库(secondary databases)[11]。
回顾性数据库实质上是累积的常规医疗和健康信息。要使用这些信息形成 RWE,解决临床医疗和决策问题,还需要进行系统和具体的研究。基于回顾性数据库的数据,根据研究目的,使用流行病学、医学统计学等方法技术开展的研究过程称为回顾性数据库研究。
回顾性数据库研究本质属于临床研究范畴。但在研究思维和形式上与传统临床研究存在较大的差异,主要表现在以下几个方面:第一,回顾性数据库本身并非一个研究数据库;这些数据库的主要目的更多是用于医疗和决策的管理(如医院电子病历数据或医保数据)。第二,在使用这些数据开展研究时,研究假设的产生通常是在已有数据的基础上。因此,这些数据是否可解决临床问题,可以解决什么样的临床问题,是开展回顾性数据库研究前需要考虑的重要问题。第三,这些数据库通常储存了海量、多样化的信息,因此具备了医疗大数据的重要特征,很多时候也被称为医疗大数据(health big data)。海量多样的数据形式决定了回顾性数据库研究的核心是如何挖掘及清理海量数据。这一过程通常需要方法学家、临床专家和信息专家的参与,并借助多种信息技术、统计软件来实现,更强调多学科合作。
2 回顾性数据库数据的主要分类与特征
回顾性数据库是整个研究的基础,其数据形式多种多样,通常包含在医疗环境中建立的电子病历数据(electronic medical records,EMR)或在更广泛的医疗健康环境中建立的电子健康档案数据(electronic health records,EHR)、医保环境下形成的医保理赔数据(claims data)、民政部门和公共卫生部门的出生/死亡登记数据、公共健康监测数据(如药监部门的药物不良反应监测数据)及整合了多种数据形成的区域医疗健康数据等[7]。但由于数据库建立的目的不同,其所涵盖的数据内容及范围也不同。如 EMR 的建立是为方便临床医生诊疗工作及医院管理,因此包括了大量患者就诊期间的症状、体征、检查及诊治经过等相关信息,但未涵盖患者院外的诊疗信息。医保数据的建立是为了医保部门报销理赔,因此涵盖了较详细的医疗费用及用药信息,但其诊断的准确性可能存在缺陷,且不涵盖检查信息。医保数据、电子病历记录及区域化医疗数据是目前回顾性数据库研究中常使用的数据库类型,表 1以这三种数据库为例说明其各自特征。
3 回顾性数据库研究可回答的主要科学问题
基于回顾性的数据库研究可用于评估患者健康状况、疾病及诊疗过程、评估防治结局、评估患者预后与预测及支持医疗政策制定等疾病治疗和预后的临床问题。基于较高质量的数据库数据,选择最佳研究设计、采用规范的清理规则及科学分析,回顾性数据库研究仍可得到高质量证据以支持临床实践及医疗决策[12-14]。但不同数据库所涵盖的数据内容不同,可以解决的科学问题亦有差别。
3.1 基于电子病历数据的回顾性数据库研究
EMR 系统中涵盖了患者在真实诊疗环境中的大量诊疗信息,既有诊断、检验信息,还包括详细的症状、体征、住院期间疾病转归等信息。因此,基于 EMR 的回顾性数据库研究可评估疾病发生转归及诊疗全过程,包括:了解疾病负担;描述疾病流行病学特征与分布[15],发现疾病流行规律和病因;了解特定疾病的治疗模式[16],评价真实诊疗中治疗的合理性;了解现有诊疗措施的治疗依从性及相关因素;探索在目前诊疗中未被较好满足的患者需求[17]。
在评估防治结局方面,鉴于 EMR 数据产生来源于日常诊疗环境,比传统临床试验涵盖了更广泛的人群、涉及更复杂的用药情况,因此可反映干预措施在真实诊疗环境中的实际疗效与安全性,并可比较不同干预措施的治疗效果以及在不同人群中的疗效差异。且 EMR 涵盖了大量用药人群,更易发现出现罕见不良反应的患者。相比前瞻性研究,回顾性研究可在短时间内完成资料收集与分析,省时省力。因此,基于 EMR 的回顾性研究常用于探索药物安全性问题,特别是用于发现罕见不良反应。另外,EMR 中包含了患者疾病转归结局以及重要的影响因素(如年龄、性别、吸烟饮酒史、检验指标、合并疾病等),因此可以评估患者预后、分析预后因素相关性和建立风险预测模型。
值得注意的是,单一医疗机构的 EMR 系统仅涵盖患者在该医疗机构的诊疗信息,通常随访时间较短,无法评价慢性疾病的预后以及长期用药的安全性问题,故仅能探索药品的短期不良反应以及急性、重症疾病就诊期间的预后问题,如对重症监护患者建立预后模型预测患者预后情况[18]。
3.2 基于医保理赔数据库的回顾性数据库研究
医保理赔数据库包含了医保覆盖范围内患者详细的医疗费用信息,主要用于了解疾病经济负担,分析医疗费用影响因素[19,20]及进行卫生经济学评价,为医保相关政策制定提供证据支持。同时,医保数据库涵盖患者医保期间所有的用药信息,包含疾病诊断信息,还常用于探索用药安全性[21],特别是慢性疾病长期用药的安全性问题,如探索吡格列酮是否增加膀胱癌发生的风险[22]。但因缺乏检验信息,基于医保数据库的回顾性研究仅适用于结局指标为疾病诊断的药品安全性问题。
3.3 基于区域医疗健康数据库的回顾性数据库研究
区域医疗健康信息平台的建立使区域内医疗信息共享,不仅可涵盖患者症状、体征、用药、检验、诊断等患者详细的诊疗信息,而且可追踪患者长期的疾病进程及转归结果。因此,基于区域医疗健康数据库的回顾性研究特别适用于慢病管理,评估患者长期预后以及探索长期治疗的患者结局等问题。以英国 CPRD(The Clinical Practice Research Datalink)为例,该数据库覆盖了 674 家医疗机构超过 1 千万人口,涵盖了患者人口学、免疫接种、症状、体征、处方、诊断等信息,平均随访时间 5.1 年。目前基于 CPRD 数据库开展了大量研究,探索疾病负担、防治结局[23]及预后[14]等临床问题,截止 2015 年已发表了超过 1 000 篇研究报告[24]。我国医疗电子化起步较晚,信息化程度低,但目前发展迅速,区域医疗健康信息平台不断涌现。2012 年对我国 EMR 系统的横断面调查发现 848 家医院中 EMR 功能应用水平分级评价为 4 级以上(全院信息共享,中级医疗决策支持)的仅占 3.3%,而 7 级(区域医疗信息共享)的比例为 0%[25]。目前我国已逐步建成如福建厦门区域医疗数据库[26]、宁波鄞州医疗数据库[27]等区域医疗健康信息平台,为解决我国慢性疾病治疗、预后等相关问题提供了契机。
综上所述,不同数据库涵盖信息不同,在解决临床问题上存在各自的优势与局限。实现不同类型数据库间信息的共享,进行信息互补,更有利于研究的开展。如医保系统涵盖了较全面的处方药物及费用的信息,而 EMR 系统包含了检验信息以及较准确的诊断信息。将 EMR 系统与医保理赔系统链接,可获得更全面、准确的信息[28]。
4 回顾性数据库研究的策划、设计与研究数据库构建
回顾性数据库研究的流程包括:研究的策划与设计、研究数据库的构建和数据分析及报告。在研究策划与设计阶段,需明确研究问题,选择及获取数据库的使用权并撰写研究方案;研究数据库构建阶段包括数据提取及清理;最后基于构建的研究数据库进行数据分析及结果报告。图 1总结了使用回顾性数据库开展研究的基本过程。
4.1 回顾性数据库研究的策划、设计
4.1.1 回顾性数据库研究的策划
使用已有数据开展研究前,亦需形成明确的研究问题。但与传统研究不同,回顾性数据库的数据已存在,且并非基于研究目的而收集,故数据本身很大程度上决定了使用这些数据可解决什么临床问题。如前所述,不同类型的数据库涵盖信息不同,可解决的临床问题也存在很大差异[8];即使相同的数据类型,包含的信息内容也不全相同,其信息化程度、诊断编码、数据缺失情况亦不相同[29]。因此,基于回顾性数据库研究的策划不仅涉及流行病学设计,更重要的是明确针对具体的临床问题应该选择什么类型的数据库、数据库中涵盖数据的质量如何以及是否可以获得数据库的使用权。在回顾性数据库研究策划阶段需要考虑的问题如下:
① 研究团队的组成及分工:使用回顾性数据库开展研究常涉及海量数据的挖掘、清理和分析,这一过程需要基于识别编码、清理规则,并结合信息技术和统计方法来实现,故往往需要多学科合作。因此在开展回顾性数据库研究前,需组建研究团队,其成员通常包括方法学家(流行病学、统计专业人员等)、临床专家(各相关专业临床专家)、信息专家(信息、计算机专业人员)。其中,识别编码、清理规则的制定需要临床专家参与并提供意见,信息专家则负责基于代码识别提取数据,而方法学家主要承担研究设计、数据清理、分析等工作。
② 选择合适的数据库:在策划阶段,研究者需考虑选择何种类型的数据库,即选择医保数据库或 EMR 数据库、单一机构数据库或区域医疗数据库及是否需链接其他类型数据库。选择何种类型的数据库需要研究者辨别不同类型数据库的特点,包括数据库的结构及所涵盖变量的范围、人群的代表性如何及随访时长。如分析医疗费用和进行药物经济学评价通常选择医保数据库;分析某静脉药物导致的短期不良反应可选择 EMR 数据库;若探索慢性疾病的长期预后,因单一机构 EMR 数据库随访时间短无法获得患者远期结局,此时则需选择区域医疗数据库。
③ 评估数据库中所涵盖的数据量及质量:尽管回顾性数据库研究通常涵盖大量人群,但对于罕见疾病及特殊暴露,研究者仍需要考虑数据库中涵盖的样本量的大小及预计可能的结局事件数。特别是对于需要复杂统计模型解决的问题,如预测模型,样本量过小或结局事件数过少均会影响统计模型的应用。同时,数据库中数据质量也是影响研究质量的主要因素之一,特别是一些重要研究因素数据的准确性及完整性。如以某种疾病诊断作为结局时,诊断的准确性是常常需要考虑的问题[30],若以实验室检验指标作为结局,则通常需要考虑数据缺失比例。数据准确性较差则可带来较严重的错分偏倚,若数据缺失比例过高,无论采用何种填补方式均存在问题。
④ 判断是否可以获得数据库的使用权:毋庸置疑的是相比单一、无链接医疗数据库,区域化、链接数据库在解决临床研究问题上有更大优势。尽管研究者、政府机构也日益强调信息共享,但因各医疗机构间信息储存系统不同,以及出于对患者隐私及医疗机构信息的保护,目前国内多数数据库并未对研究者自由开放。在选择回顾性数据库开展研究前还需要考虑数据库的可获取权以及可获取的范围。
4.1.2 回顾性数据库研究的设计
选择数据库后需基于研究问题确定研究方案。回顾性数据库研究方案的撰写与传统研究有所差异,特别是在研究设计方面,如何从海量数据中识别并提取出研究所需变量是设计核心。
① 确定研究问题及研究设计类型:基于数据库的研究方案同其他研究方案框架类似,一般包括预设研究问题,研究设计及统计分析计划[7]。对于研究问题,需阐明立题依据,明确预设研究问题,并说明是探索性研究或验证性研究。研究设计的选择需基于研究问题,常用的基于数据库的观察性研究设计包括队列研究、病例-对照研究、横断面研究。除此以外,目前一些新的研究设计如病例交叉设计、续断性时间序列等也应用于数据库研究中。不同的设计类型可解决不同的研究问题,如横断面研究常用来了解疾病负担及尚未被满足的医疗需求;队列研究常用来评估防治结局、探索疾病预后等问题;而病例-对照研究更适用于结局为罕见事件的研究问题[7];对于探索短暂暴露与急性事件发生的关系,如剧烈运动与心梗的发生,则可选择病例交叉研究[31]。
② 明确数据要素:对于数据库研究而言,明确重要数据要素的定义非常关键,重要数据要素包括研究人群、暴露、结局及重要的影响因素变量。建议方案中详细列出用于识别研究对象、暴露、结局等的编码或算法。
在数据库研究中共涉及 3 个不同层次的人群:① 源人群:数据库人群的来源;② 数据库人群:来源于源人群,且包含在数据库中具有数据记录的人群;③ 研究人群:使用代码和算法从数据库中识别到的人群[10]。如何从海量数据中识别出研究人群,定义相关识别代码及算法是关键;如果研究人群不同,用于识别研究人群所需的算法也不同。如在探索某种疾病治疗相关问题时,可采用 ICD 编码对患病人群进行识别;在研究某种药物安全性问题时,则可采用药品编码对使用了该药物的人群进行识别。值得注意的是,通过编码或算法识别出的人群并非最终研究人群,为了保证研究人群的同质性,通常还需进一步限定。在效果比较的研究中,常用的限定内容包括:限制为新用药人群、患者无禁忌症以及患者依从性好[32]。
同研究人群一样,对暴露及结局指标的定义也需特定的识别编码及算法。如暴露因素为药物,通常可采用医嘱信息中特定的药物代码进行识别。对于结局指标,如为疾病诊断,可采用诊断 ICD 编码进行识别;如为检验指标,可采用医院特定的检验编码进行识别。除暴露及结局指标外,还需考虑潜在的混杂因素以及效应修正因子,并提供其分类编码和算法。
需注意的是,无论采用诊断编码、药品编码或其他识别代码及算法,在识别研究人群、暴露因素、结局指标等方面均可能存在错分偏倚。而不同的数据类型所包含信息不同,错分的情况可能也有不同,如药物暴露,EMR 中缺乏患者既往用药史、依从性信息,因此在判断是否存在暴露及暴露水平上可能存在错分。不同机构的 EMR 系统不同,医疗水平不同,对疾病的诊断水平及诊断编码的完整性及准确性上也有差异。即使相同机构,不同疾病 ICD 编码的准确性也存在较大差异,如有研究显示采用 ICD-9 诊断编码识别糖尿病的敏感性达 62.6%,而识别急性心肌梗塞的敏感性仅为 25.4%[30]。因此,这些识别方法带来的错分偏倚可能严重影响研究的质量,为了解错分偏倚的情况,通常需要对这些识别方法进行验证。为提高识别方法的准确性,可考虑采用联合识别方式,如识别肾功能衰竭患者,除可采用 ICD 编码,还可结合实验室检查。当对同一变量存在多种定义方法而无法确定最佳定义时,可采用敏感性分析。
③ 统计分析计划:不同于传统 RCT,回顾性数据库研究由于没有采用随机设计方案,组间的基线常常存在差异,可能导致存在选择性偏倚,因此在统计分析计划中需考虑采用何种统计方法来降低偏倚。但并非所有的数据库研究均需复杂的统计方法,不同的研究问题需要不同的统计方法进行分析。
4.2 研究数据库的构建
回顾性数据库的基于管理目的收集的数据通常无法直接进行分析,要使用回顾性数据库开展研究需基于研究目的重新建立研究数据库。EMR 是医疗机构内部支持电子病历信息的采集、存储、访问和在线帮助,并围绕提高医疗质量、保障医疗安全、提高医疗效率而提供信息处理和智能化服务功能的计算机信息系统[25],是目前数据库研究最常使用的数据来源。我们以 EMR 为例,简述基于 EMR 的回顾性数据库的建立过程,如图 2所示。据的回顾性研究数据库构建流程
4.2.1 数据提取
在确定研究方案后不能提取数据,数据提取前需完善数据提取准备,包括伦理申请及制定数据提取方案。
① 伦理申请:RWS 属于临床研究的范畴,因此回顾性数据库研究仍需将研究方案提交伦理审查委员会(institutional review board,IRB)接受审查和批准。目前,我国尚无针对观察性研究的统一的伦理审查工作指导原则,各地伦理委员会对回顾性数据库伦理审查标准不一。通常经伦理审查委员会审查并批准后才能进行数据提取,部分机构需通过伦理审查后才能准予立项。对单一医疗机构的数据,需经该机构伦理委员审核;对区域医疗机构数据,则需区域或中心的伦理委员会审核。
使用已有数据进行回顾性研究通常可申请免除知情同意,但 IRB 进行伦理审查时应更关注保护患者隐私。因此建议去除患者识别信息的数据,采取有效措施保护数据安全,保障患者个人信息不被泄露。
② 数据提取方案:数据提取通常由信息专家进行,研究者则需根据研究方案制定数据提取方案。数据提取方案一般包括需提取的所有目标患者详细的识别编码及算法,以及需提取的研究变量所在储存模块及提取方式,并确定所需字段信息格式。同一研究变量可能涉及多种储存模块,而在不同储存模块其数据的储存形式、数据完整性及准确性不同。如在出院证明、出院小结及病案首页中均有出院诊断,但仅在病案首页中含有 ICD 诊断编码,则 ICD 诊断编码的准确性更高。因此制定数据提取方案除需熟悉医院 EMR 结构,还需结合临床实际,往往需要方法学者、临床专家及信息专家共同参与,讨论协商后决定最终数据提取方案。
③ 数据提取及核对:信息专家按照数据提取方案提取相关变量,提取过程一般分为两步,第一步根据识别编码从数据库中识别出所有目标患者;第二步根据事先制定的规则,对其他所需数据信息进行提取。数据提取过程对系统软硬件技术环境要求较高,需要信息专家基于一定平台采用复杂的信息技术实现。数据提取后还需对数据进行核对。可采用系统抽样方式随机抽取一定比例的患者数据,人工核对相应信息是否准确,如对数据有疑问,可返回信息中心。
4.2.2 数据清理及建立研究数据库
直接提取的数据并不能马上进行分析,还需根据相应的纳入排除标准、清理规则进行数据清理。数据的清理是数据库研究的核心部分,数据清理方法的选择可直接影响研究结果、研究的可重复性和研究结果的再现。与国外系统不同,我国电子病历信息化程度不高,存在大量非结构化及半结构化信息[25],因此我国 EMR 数据库研究的清理工作更耗时耗力,也更为关键。
① 评估数据质量:数据的质量往往决定研究的质量,在提取数据后需进一步评估数据质量。对重要研究变量进行描述性分析以了解变量的极端值和错误值、缺失值比例及数据的趋势等。定义变量的极端值及错误值往往需要临床专家结合临床实际给出参考标准。通过对变量的描述性分析不仅可对数据质量进行评估,还可进一步发现数据提取过程中可能存在的问题,以便必要时返回信息中心进一步核对。
② 数据清理:根据研究制定的纳入排除标准,排除不符合纳入标准的患者,进一步确定研究人群。对不同的变量建立相应的变量字典及清理规则,包括对医嘱信息、检验信息、诊断信息的清理规则及研究所需药物相关字典等。研究的问题不同,所需清理的变量及规则不同,如研究糖尿病用药模式,需根据医院用药情况及特定的药物编码制定糖尿病药物字典;而研究某种静脉用药,则需制定医嘱用法清理规则,排除非静脉用药途径的记录。
患者症状、体征、住院诊治经过等医疗信息往往也是研究的重要信息,然而这些信息存于入院记录、出院小结等非结构化的文本信息中。如需提取此类信息,可考虑先结构化文本信息。结构化文本信息首先需确定结构化范围,如提取患者入院时症状、体征信息则需对入院记录进行结构化;提取患者住院期间诊治经过等信息可考虑对出院小结进行结构化。确定结构化范围后,可根据研究所需变量进一步明确拟提取的字段及定义相应的逻辑词,并最终建立结构化规则。
通过上述流程才能初步建立基于医院电子病历数据的回顾性研究数据库,通过已建立的回顾性研究数据库,可根据不同的研究目的及具体的流行病学设计类型进行统计分析。为控制混杂,回顾性数据库的统计分析常需采用多因素分析、倾向性评分、工具变量等较复杂的统计学方法。
5 小结
基于观察性设计的 RWS 在多个临床领域和卫生管理领域有极大的应用价值。相比前瞻性研究,回顾性数据库研究对资源要求较低,研究时间较短,在临床研究中应用更为广泛。但数据不等于证据,高质量研究证据的产出离不开科学的研究设计、严谨的研究实施、准确的数据分析和多学科的紧密合作。由于篇幅的关系,本文仅介绍了回顾性数据库研究的概念、策划、应用和数据库构建的内容,相关研究设计和分析的内容将在后文中撰述。
领取专属 10元无门槛券
私享最新 技术干货