科学研究依赖数据,这点毋庸置疑。然而,在大数据的生物领域应用成为炒作热点的今天,我们更需要明确:如果要将大量的生物“组”(基因组、蛋白质组和转录组)变成新的药物和治疗方法,我们需要转变思维方式。
人类基因组计划成果甚微,通过DNA序列认识疾病并不容易,更别说找出治疗方法。自医学界将“个性医疗”(认为通过基因解码能够得出针对个人的治疗方式的理念)更名为“精准医疗”起,我们开始认识到基于个体基因组的研究不同于基于群体基因组的研究。
个体与个体之间存在本质上的不同。因此,利用基因信息来预测个体对药物的反应的唯一方式,应该建立在我们对人体运作的深刻理解之上。只有深刻理解人体是如何运作的,我们才能模拟出每个人吸收药物分子并与之交互的方式。
目前要做到这一点很难,因此我们选择采用精准医疗——观察具有基因相似性的人体的反应,并假设目标人体会做出相似的反应。
长期以来人们持有这样一种想法:只要知道了蛋白质的原子结构,我们就能照例设计出能够辨别作用位置的药物。然而,这一想法并没有实现。
如斯坦福大学的流行病学家约阿尼迪斯所作的著名论断“大多数已经发表的研究结果有错”强调的那样,数据并不是事实;一项关键数据——同行审查研究结果——如果没有好的实验设计和严格的统计分析作为基础,都不可信。
今天,许多人声称我们生活在一个“数据时代”。我对此表示担忧,如果你将研究结果本身视作数据的重要组成部分,那么数据的真实可信度有多大?
“毋庸置疑,大数据给我们的生活带来了显著的影响,它可能在五年内为英国贡献2000亿英镑的经济效益。”伦敦科学博物馆的外事部主任罗杰·海尔菲德说到。但他同样指出“对大数据的盲目崇拜使得一些人做出妄断,宣称大数据时代的就是理论与科学研究的终点。”
大数据并不全面
对大数据的崇拜让我们轻视了许多问题,甚至是一些具有深远意义的问题。研究人员正在使用一种被称为神经网络的人工智能来理解大数据。但无论是从深度还是从成熟程度来看,神经网络仅仅是对现有数据的曲线拟合。
如果在超出现有数据的情况下训练人工智能,他们可能会失败。因此实际上他们能做的只是“期待能够在以往的病例中寻找出适合眼前病患的治疗方法”。
尽管如此,他们仍然是有用的。20年前,有人利用大数据和神经网络,从红外光谱的水泥粉预测出了复杂泥浆(半液体混合物)的增厚次数。但即使这成为了一种商业产品,它并没有让我们更加理解是什么机制在发生作用,而这种机制是我们设计新种水泥所需要的。
从生物学角度来看,最大的挑战在于,大数据实际上只显示了细胞、器官或人体的复杂性的小部分。我们需要弄清哪些数据对于特定目标而言是重要的。物理学家对此就十分清楚。欧洲核子研究中心的希格斯波色子研究需要PB级数据;尽管如此,他们还是用理论来指导研究。同样地,我们也不能通过历史数据的平均值来预测天气;只有与卫星每日更新的数据相结合,数学模型才能更好地发挥作用。
一些人甚至做着通过数据采掘来铸造物理定理的梦。迄今为止,数据结果都是有限的且不具有说服力。正如爱德华所说:“没有人相信通过数据采掘可以产生广义相对论。”
我们需要理论支撑
尽管希望极其渺茫,许多生物学中的大数据拥护者仍坚信我们并不需要用理论来建构对基础健康和疾病的理解。但事实是,通过观察一千个病人对药物的反应来预测一个病人对药物的反应,这与上文所指出的天气预报是一个道理,并不可信。
同样,利用基于所有已知的药物和现存的分子结构的机器学习来发明新的药物也是容易失败的。因为现有的化学结构和潜在药物的细微变化都有可能导致戏剧性的功效差异。
我们需要更深层次的构思,而目前普遍的看法是生活的复杂性绝不会轻易屈服于理论模型。领先的生物学和医学期刊几乎不发表以小理论为主导的文章,更遑论纯粹的理论或工作。大多数数据只能提供短期的健康数据,但人们的身体变化永无止境。
为了更有效地利用大数据,我们需要改进生物过程的模建。Peter已经在报告结果提出设想:不久的将来,借助复杂的模建、大量的计算和灵活的数字,我们能够提取人体基因组织,并在短短几个小时内为患者选取合适的治疗药物。从长远来看,目前虚拟现实技术不断发展,将来我们可能实现在患者的数字分身上进行初始测试。
为了实现这一梦想,我们需要将用于收集和处理大量的数据的资金,挪向生物学法则的探索上。大数据固然重要,但我们同样需要理论作支撑。
领取专属 10元无门槛券
私享最新 技术干货