[编者按]作为一个研究院,衡量实力的一大重要标准是其科研的能力和成果。数据科学研究院(以下简称:数据院)作为高校的非实体教学科研机构,并没有隶属自己编制的老师或研究人员,想要将最重要的科研工作搞起来,势必要探索出一条新的路径。本文将带你了解数据院在科研领域的从零到一,有着怎样的建设思路和历程。
笔者采访数据院创建之初的参与者,时任清华大学研究生院副院长,现任教育研究院党总支书记刘惠琴老师时,刘老师在肯定数据院四年成绩的同时,还念念不忘设计数据院时的“初心”:学校希望整合全校数据到数据院,不同的人进行不同的授权,建成一个数据分析平台,进而再成立大数据国家实验室,去整合、处理国家量级的数据。
知时而起,知难而进
在大约12平米的办公室里,数据院科学研究部首席架构师黎成权正在向韩亦舜院长汇报清华医学研究数据平台的建设进展:“目前参与合作的单位有5家,还有5家正在谈。”平台搭建工作紧锣密鼓开展了10个月,心气很高的黎成权认为这样的进展速度还不够理想。
平台开发团队与医院信息科人员进行数据对接合作
清华临床医学科研数据平台(以下简称:医学数据平台)是数据院与清华临床医学院牵头搭建的一个医疗数据共享平台。希望将医院的医学专家和校内的工科专家聚在一起,共同打造一个医疗数据共享资源池,实现医疗数据的汇集、整理和储存,并为高校和医学界的研究者提供研究素材,更好的发挥医疗数据价值。这个平台被比喻为“医工结合”鸿沟上的一座桥。
“没有人做这件事,也没有人敢做这件事,这绝对开创了国内的先河。”清华大学生物医学影像研究中心研究院赵锡海这样评价数据院带头搭建医学数据平台。从平台建设之初,赵锡海就被韩院长邀请参与到平台建设中来,他非常了解其意义:“现在有大量的医疗数据堆积在医院或医疗机构,他们不能丢,也不敢用;学校的老师需要真实的数据用于医学研究,他们有需求,但是要不到数据。必须有一个人去打破这样的恶性循环,数据院在做的这件事真的够大胆,如能做成,将为社会创造极大的价值。”
赵老师冠以数据院“大胆”二字,是因为他清楚平台搭建过程中的每个环节都面临挑战:从国家层面,数据开放共享是大趋势;从实操层面,医疗数据的开放共享还没有解决好法律环境的支撑。同时,医疗数据没有明确的归属权,想要使用数据是否需要跟每一个患者签订相应的协议,这又是一个问题;数据处理环节,需要与拥有数据的部门逐一沟通,怎样打通壁垒实现数据融合、怎样给医疗数据脱敏、怎样识别复杂的医疗数据都需要付出大量人力精力;研究成果环节,还涉及一个现实的问题,由医学、工科等专家跨学科、跨领域合作,所得出的研究成果如何分配......
其难重重,其路漫漫。我们不禁疑问,韩亦舜院长因何决定要做这件事,且坚持要做下去。提及平台搭建的初衷,韩亦舜院长回忆道:“我曾三天两头往医院跑,去参加医生的读片会、去缠着医生看电子显微镜下的病理切片、去与科室主任交流,甚至去参加患者及家属组织的活动。别人总问,你不懂医,为什么要做这些?我是去倾听,去思考应该从哪里破局健康医疗大数据,去观察医生间的知识是如何传承的,去了解患者的真实需求是什么,去发现医生最不想做又不得不做的事情是什么?有一次看到他们统计病理切片中的细胞数量,研究人员在显微镜下观察,手中拿着计数器一下一下按键计数。当时给我的触动非常大。纵然医学领域很多复杂功能暂时难以用机器智能解决,但这样统计细胞数量,利用数据科学领域的图像识别是有可能解决的事情。当时我就下定决心,要实现医工结合,而且无论如何都要做成。”
董家鸿和韩亦舜共同签署合作协议
清华长庚医院作为搭建医学数据平台的合作方,正是因为清华大学临床医学院院长、北京清华长庚医院执行院长董家鸿院士在抱有同样的初衷下与韩院长一拍即合。董家鸿说,这样一个数据融合的平台想做起来太难,面临很多否定和阻碍,只有数据院是从始至终无条件在支持推动医工结合,也正是数据院这股“韧劲儿”打动了他。董家鸿和韩亦舜都抱有同一个信念:这件事意义非常,我们要做下去,且要做好。
目前依托清华长庚医院的“单中心多病种平台”和聚焦肝胆疾病的“多中心单病种平台”都有了雏形,校内老师的目光陆续投向了这里。
千淘万漉虽辛苦,吹尽寒沙始到金
在坎坷探索医工结合之路的同时,数据院在交通大数据领域的研究也在艰难推进。“要加快建设交通管理大数据分析研判平台,提高预测预警能力;要推广应用交通集成指挥平台,逐步实现道路状况自动感知、交通态势自动研判、路况信息自动发布等功能……”2018年年初,贵州省举办的交警系统贯彻全国公安厅局长座谈会精神动员部署会上, 公安部副部长李伟在讲话中强调了数据科学在交通领域的应用。而他作为典型提及的大数据分析研判、应用交通集成指挥等平台或功能正是数据院交通大数据研究中心贵州省合作的研究:复合型大数据交通态势感知智慧指挥中心。
复合型大数据交通态势感知智慧指挥中心是数据院交通大数据研究中心团队与贵州省公安厅交通管理局合作开展的课题研究,专注于利用交通仿真、大数据学习、机器学习和深度学习技术,融合多达100类跨界多类型、多源头大数据,实现交通态势和交通风险的感知,将交通安全管理从被动的事后应对处置转变为交通风险的主动的事前预警处理、事中快速疏导,从而降低交通事故死亡率,优化交通管理和治理,更好的服务人民群众。
胡主任与团队成员在讨论交通风险预警系统
“现在的系统还不完美,但是已经有过小试牛刀。例如去年发生的黄果树瀑布拥堵事件,我们通过感知交通态势和发送风险预警,成功规避了潜在的交通事故,化解了各类危机。”数据院交通大数据研究中心副主任胡庆勇提起他们在做的事,自然流露出自信和骄傲。当时临近春节,胡总和他的团队已经打响了春运安全保障实战:“每当别人放假的时候,就是我们最忙的时候。”胡总说,“因为我们搞的是交通管理大数据,我们做的风险预警早一秒都有可能避免一场交通事故,这是人命关天的事。”为了跟春运抢时间,团队大部分成员都从北京转移到贵州省交管局科研所的办公室办公,每天加班到深夜。今年春运期间,他们总共发起了135次智慧诱导任务,惠及了700多万人,后期数据分析也表明了诱导效果是明显的,收到诱导信息提示后延迟出行的交通参与者比例达到14%以上。
清华“出身”的胡庆勇思维敏捷、语速飞快、极注重效率,他对自己的团队要求非常严格:“数据时代的技术、应用都日新月异,我们在做的事情没有前车之鉴,必须要拼速度、拼实力才能向前走,不然就等着被淘汰。”他同样也强调情怀,因为中心在做的研究在全国都属于开创性的工作,每一步的推进都要克服诸多难关,没有情怀,不可能坚持下来。他针对数据源举例道:“做交通大数据领域的研究,得收集电信运营商、交管局、互联网门户等各类数据,但是人人都谨慎,最初我们没有成果,得让对方知道我们要做什么,让对方认可我们的价值。此外,部分数据是不开放的,需要我们部署相关系统远程处理数据再拿来用,从而实现客流分析。实现过程非常艰难,耗费了大量的人力物力成本。”
胡庆勇与团队成员在贵州省交管局的办公室讨论工作
数据院交通大数据研究中心由清华大学教授、清华大学交通研究所所长陆化普领军,凭借其深厚的学术科研背景为国家交通管理大数据提供“智库”支持;有企业经历的胡庆勇担任中心副主任,充分发挥企业优势,使得中心能够以问题引导,让科研落地到实际应用。目前,中心在贵州、内蒙、云南等多地进行了科研部署,也终于从零逐渐突破到一。细数这些年的工作和进展,胡庆勇感慨万千:“我一直非常认可数据院RONG的理念,只有大家都拥有包容、融合的心态,数据才能够被更好的开发利用,发挥更大价值,我们的工作也会有更快的进展。我的小目标是拿(jian)下(li)十个不同环境类型的省份(合作关系),让清华数据院的交通大数据研究中心,在省域交通管理领域占有一席地位。那时候我们中心就牛了。韩老师还曾答应会重重奖励我,嘿嘿。”
在数据的汇聚和应用领域,贵州交警走在了前面,清华数据院的理念与技能会支持贵州交警继续引领大数据的应用。
要高峰,也要高原
采访中,无论是刘惠琴、董家鸿、赵锡海这几位数据科研平台建设倡导者的代表,还是黎成权、胡庆勇等数据科研平台建设实践者的代表,都负有强烈的使命感和责任感。
“这是一个必须带着情怀才能坚持做下去的事情。平心而论,搭建这样的数据平台,特别是早期的工作,的确没有多少学术价值。很多人问过我:这些代表清华的水平吗?对数据院有什么意义?”经过长长寂静,韩老师接着说“我真不知道该如何回答。我认定,它对清华基于数据驱动的科研有意义,对大数据的应用落地有意义。从医生们、老师们兴奋的眼神中,从合作伙伴步步提高的成绩中,我坚信它有意义。我就去做吧,数据院就去做吧。”
事实上,数据院始终在为这一目标努力着,例如与临床医学院合作搭建的清华临床医学科研数据平台、与计算机系和法学院共同搭建的司法数据平台等都在进行不同领域的数据汇集,但这终归是一个长远的目标,推进起来不容易。韩亦舜表示:“一方面我们还没有较为完善的数据使用和管理规范,一方面不同领域、学科的人需要很好的沟通理解才能进行有效合作。想要推进这件事,没有速成方法,就要靠不断沟通、探索和尝试。这些事情如果没人肯干,我们国家的大数据研究和应用落地都难以推进。所以我打定主意要做破局的那个人。在科研方向,数据院欢迎所有人以数据院作为平台开展研究,当然数据院也要求来这里的人必须拥有开放的心态。数据融合是发挥数据价值的第一步,做成了我就值了。如果我不做,总觉得是我的遗憾。我不想留下遗憾。”
清华文化中,“自强不息”固然说的是清华人的奋斗精神,“厚德载物”更是体现清华人对自我的要求,说的是情怀。“引领一流大数据科研”是数据院的使命,也是清华大数据人的使命。如今的数据院在科研方向逐渐实现从零到一的突破,但这一切仅仅是开始。面对数据科学这条雄关漫道,数据院始终不忘初心,向前迈进。
今天的清华科研,要高峰,也要高原,要顶天,也要立地!我们来了,我们是认真的。