季晓康：数据多大才算大数据？

文章来源：企鹅号 - 冷酷奉翅膀

作者：李林

编辑：刘健

季晓康：数据多大才算大数据？

【引言】季晓康，山东大学健康医疗大数据研究院副院长。他在此前一次题为《数据驱动——健康医疗大数据队列研究的探索与启发》的演讲中针对“数据多大才算大数据？”时给出这样一个结论：健康医疗领域的数据跟其他领域有一个本质的区别就在于我们在医疗行业必须要解决问题，我们不能只在观念层面或者是预测决策分析层面。在生物医药领域，必须将唯一的身份索引数据在整个链条上尽可能多、尽可能全面地汇集在一起，才能够真正地产生作用。以下为来源【猎云网】的季晓康演讲实录，文中标红的部分为我阅读时的“划重点”。

很高兴能到行业顶级峰会来学习，我也学到了很多，我叫季晓康，来自于山东大学健康医疗大数据研究院。我们团队在2004年，有一次偶然的机会跟山东公立体检医院合作开始研究体检数据，后来进入预防医学到临床医学以及卫生经济，卫生政策，到最后跟健康保险合作，从事了很多数据研究相关的工作，这里我也想跟大家分享一下我们这些年的经验和体会。技术驱动，我相信在未来相当长的时间内肯定会是卫生医药、健康医疗行业重要的支柱，我希望我们的经验能给大家在未来做技术储备的设计和技术储备研究的时候提供一些启发。

大数据这个词虽然不长，但是人类对数据的认识自古以来就有的。我们谈到数据和计算，大家总会想到算法，这个图片上的青铜器，是公元前两百年左右，古希腊用来计算太阳系内天体运行和日历的。在那个时候，天体运行和日历、历法对他们来说就是大数据，他们也需要非常先进的工具。大数据它本身也不可能是一个科学概念，只是泛泛的商业理论，它背后的逻辑就是我们需要从软件、硬件层面去应对持续膨胀的数据所带来不断扩大的数据计算需求。

这些年我听到最多的一个问题就是，数据多大才算大数据，是不是我们从事的工作就没法进行大数据研究？我跟很多临床大夫，很多医院交流的时候，这个问题也是提的最多的。我觉得生物医药领域或者是生物健康领域、健康医疗领域的数据跟其他领域有一个本质的区别，这个区别在哪儿？就在于我们在医疗行业必须要解决问题，我们不能只在观念层面或者是预测决策分析层面。

举个例子，美国佛罗里达州把所有的鲨鱼攻击事件的数据收在一起，发现每年冷饮的销量跟鲨鱼攻击事件下降关系最紧密。这肯定不是因为人吃了冰淇淋以后更吸引鲨鱼了，而是他在收集数据的时候缺少了气温数据。当气温升高的时候，冰淇淋的销量就高了，下海游泳的人就多了，从而带来更多的鲨鱼伤害事件，通过禁售冰淇淋是无法减少鲨鱼伤害的。

如果你在生物医药领域找不到真正的因果关系，就会踩很多坑，有非常多的例子可以进行证明。在生物医药领域，必须将唯一的身份索引数据在整个链条上尽可能多、尽可能全面地汇集在一起，才能够真正地产生作用。我们现在做的人群对症研究，一定要从早期，孕产期甚至备孕前就开始进行数据收集。如果没有这些数据的连续观察，就很难找到真正的因果。

其实，从2007年开始，大数据已经谈了很多年。90年代就有人说，真正引起大家的重视甚至真正的引爆，是因为人工神经网络技术门槛的降低，使得很多数据真正能够得到应用。要想进行深度学习，或者说其他的机器学习，它对数据量的要求是很高的。这是第一个门槛，究竟多少够，谁也没法回答。

我们在山东省市级儿童医院跟他们进行交流的时候，有一个大夫，我们做了很多的工作，才做了七千多例的数据，这样我们怎么进行研究。那么七千多例有多少数据呢？我从业以来，大约看了两万个哮喘的儿童患者，我一直对他们进行随访，他们吃的什么样的药，有没有坚持服药，身高体重发育情况如何，BMI是多少，这个数据很珍贵。

后来我问他七千多例具体指的是什么，他说有五次随访以上的数据有七千多人。当时我吓了一跳，我说这个数据我们帮你处理一下，可以到专业的平台上寻求一下看看有没有什么研究的可能性。后来，他在国家级会议上发布了相关研究以后，好像到现在为止，也是全球最大的儿童哮喘连续服药数据的真实事件数据。这个数据是他的研究成果在不断的挖掘，是非常有价值的。

这些年，随着神经网络一系列机器学习的办法，人工智能辅助手段的出现，去年底从国内到国外有很多的人工智能分诊，人工智能读片，人机大赛，这个概念已经被炒的非常大了。所以有很多资深的行业内人士都会跟我们探讨说是不是AI和人之间形成的一种矛盾、对立的关系，是不是我们未来会受到这样的竞争？

我个人认为不是，实际上，真正的竞争，其实是有人工智能帮助的医生和没有人工智能帮助的医生之间的竞争。而且我们从事这个行业的人都明白，现有的人工智能技术它的本质是统计学，所以它有上限和瓶颈。它的上限就是他所用来学习的标准数据，在现有的情况下我们给人工智能一个形象的定义，我们希望人工智能可以帮助40分的大夫或者是比较初级的大夫尽快提高到60分水平，让80分水平的医生不做60分的工作，这是在现有的情况下人工智能所能做到的工作。

我们都知道，这些年健康大数据医疗的发展有赖于国家的支持，2017年国家分别在江苏、福建、山东、安徽、贵州建立了五个全国性的健康医疗大数据中心。为了配合山东国家健康医疗大数据北方中心的建设，山东大学也成立了健康医疗大数据研究院。我们汇集了学校内几乎所有相关专业的研究团队和相当多企业、政府的行业研究资源，不管是在学科和行业上都进行了深度的交叉。

这是我们现有的研究团队开展的研究布局，这边有一个图，最右侧有一个图。在大数据时代来临之前我们主要的研究是通过经验归纳、模型抽象以及计算推演的方式来进行科学研究。但是现在这个时代，有一个重要的方法参与进来，这一环被拓宽了，也就是说通过密集数据发现来启动科学假设。什么意思，以前的临床医生做研究，我可能首先关心的是我在临床中发现了一些经验，对一些经验进行了总结，是不是哪一种药对哪一种病人更好或者是哪一种药的长期疗效会更可靠。这种假设完全是经验总结式，现在的时代已经不需要再总结了。首先我们会从数据的角度提供一个可能性，基础的实验也是这样的，我们在做基因层面、蛋白层面的实验完全是海底捞针，如果通过数据，把海底捞针变成十分之一，五分之一，二分之一的可能，就会大大提高实验的产出和临床实验的产出。

举个例子，我们现在的团队，每一个团队都是交叉的，都是充分的学科交叉。数据基础研究团队，除了做随机抽样技术方法的研究，他们也结合了数据团队在一起进行应用，因果推断。除了数据汇集，也就是现在IT团队临床数据优化团队，还有一系列数据应用团队在做支撑。我们的神经脉团队他们是在国外做研究，这个团队既有材料科学，也有信息库科学的人，还包括神经生物学的人。

这些年，我们也在人群队列和临床队列都做过一些工作，包括山东省政府曾经委托我们，尝试去对全省人民的健康状况进行全面的描述。在过往，这一类研究只能通过调查、报告两种方式，真正从数据角度做是很难的。接到这个工作以后，我们先是采用全省随机地区抽样的方法，抽取17个县和22个区作为我们这一次抽样的地区代表，在全员人口信息库中抽了五百多万人，将这五百多万个身份证，在全省所有卫生健康行业相关的信息系统做数据调取，不管是医院，药店，社保还是基本公共卫生服务，比如新生儿登记，死因登记，流行病检测所有的信息系统，最终汇聚了136个行业数据库，将近155个类型的数据库。

我们这个团队规模也比较大，大概有两百多人，仅仅是数据质量验证组就有30多个人。通过这一系列的工作，我们积累了大量的数据，把我们之前在数据优化，数据分析体系做的一些工作就进行了很好的实践应用。在这一百多个系统中，每一个医疗系统里的职称、编码都是不一样的，我们做了统一化的一系列工作，包括疾病编码的统一化，疾病定义的统一化，通过分词对诊断的结构化，还有药物编码，疾病描述等一系列的工具，最终完成了山东省的全生命健康图谱，在去年通过省级政府成功发布了。

举个例子，这个就是山东省男性在2016年心脑血管发病的情况。这也是在全球范围内，第一次以每一岁为单位，涉及到每一个心血管的分支疾病做时间轴的检测。前一张图是发病年龄，这张图是死因，两项对比我们会发现，传统上在其他的研究中所发现最致命的因素，反而在死因排行当中并没有那么显著。我们这个图谱除了健康危险因素，死因以外还有疾病负担，健康服务以及医疗保障等细分项。

我们通过这些研究，通过这些数据拓展到整个医疗行业的各个角落，通过大型病例的随访队列，以及临床上获得的医疗数据，最终实现从关联分析到预测决策，最终到因果推断这个层面从技术上支撑生物医药行业的发展。

非常希望有机会跟在座的各位有深度的合作，谢谢。

【提示】世界中医药学会联合会真实世界研究专业委员会有一个关于真实世界研究（RWS）的线上【千人学术报告厅】，它是围绕中医药真实世界研究理论和案例研究的一个纯公益性的学术交流平台，诚挚欢迎您的加入！

无知茶屋

求知以晓理求索以明道

发表于: 2019-08-262019-08-26 07:00:52
原文链接：https://kuaibao.qq.com/s/20190826A03BKE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

季晓康：数据多大才算大数据？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐