2021年8月16日,Nature Chemistry杂志发表了一篇南安普顿大学物理化学教授、AI3SD Network+首席研究员Jeremy Frey的专访文章。在这篇文章中,Jeremy Frey谈论了机器学习数据质量不确定性的危险以及人工智能与其他技术的协同作用。
以下是全文内容。
您是AI3SD Network+的主要研究者,能解释一下什么是AI3SD Network+吗?
Jeremy Frey:AI3SD代表人工智能(Artificial Intelligence),增强智能(Augmented Intelligence),用于科学发现的自动研究(Automated Investigation)。我们是英国研究和创新工程和物理科学研究委员会(UKRI EPSRC)的一个Network+。作为一个Network,我们被资助来组织一系列的活动。除了举办活动和研讨会以外,我们还资助了几个小型的可行性项目,参加会议、暑期实习计划以及许多其他活动(网站www.ai3sd.org)。hackathons等实践活动一直非常成功,但COVID-19意味着我们需要将所有活动转移到网上。这实际上导致了Network规模的翻倍。
这个Network的成功要归功于我的合作研究者Mahesan Niranjan、我们非常有效的网络协调人Samantha Kanza以及由John Overington教授主持的积极和支持性的咨询委员会。在我们的第一个咨询委员会上,有人指出,我们应该再加一个"AI",然后我们就可以有AI4ScienceDiscovery的缩写了。不幸的是,ai4science.org这个地址已经被占用了,但我们确实计划在未来使用ai4science.network。然而,我们一直在争论第四个"AI"到底应该是什么。
Network想要实现的是什么?你们又选择了哪些化学领域作为重点?
Jeremy Frey:EPSRC呼吁建立一个网络,将前沿科学与前沿的人工智能计算结合起来。虽然有合理的资金,但肯定不足以覆盖所有的科学,所以我们的申请集中在化学和材料的相关领域。我们的目标是将参与人工智能前沿的研究人员,包括传统的知识工程方面和最近的机器学习方面的,与参与实验和理论化学的研究人员结合起来。我们一直试图保持对化学的广泛关注。我们资助的许多项目都来自药物发现或材料设计,并有化学家、计算机科学家和数学家参与。在我们的研讨会主题中,我们确保对分子和材料特性有更广泛的见解。
因为科学发现是这个Network的重点,我们不仅希望找出相关模式(就像在使用机器学习方法时经常做的那样),我们还质疑传统的发现意味着什么,以及未来在人工智能的协助下它将意味着什么,因此我们让科学哲学家Will McNeill成为联盟的一员。
就个人而言,这个Network提供了一个绝佳的机会,让我们能够认识、欣赏并学习计算机科学和化学领域的同事们的经验和研究,包括来自国内和国际的学术界、工业界和政府的。
是什么让这些科学领域适合使用人工智能和机器学习的方法?是否有任何你认为不适合这些方法的化学领域或方面?
Jeremy Frey:在我们所有的研讨会、会谈和讨论中,出现的一个一致的主题是对数据的需求;很少有足够的数据,而且现有的数据往往是质量不确定的(质量不确定的问题,比质量差的问题多)。因此,有可用数据的领域(例如高通量合成和表征)是机器学习的明确应用领域,甚至有可能支持深度学习方法。然而,在极少数情况下,将AI/ML应用中的深度学习类型,应用到使用计算机生成数据的工作中(即一个程序与自己的“游戏”),是有机会的。
在训练和测试数据集上进行高水平的量子力学/量子化学(QM/QC)计算时,会出现可用计算机功率的问题。这种问题甚至限制了AI/ML在量子化学中的应用。在这种情况下,ML被用来提高低级量子力学计算的准确性。类似的考虑也适用于分子动力学模拟,其中ML技术被用来加速整合。
人工智能常常需要大量的数据,然而在测量化学实验的结果(如反应产量或速率)时通常会有误差,而且通常这些特性的测量精度有限。业界如何解决这个问题?你认为这主要是一个实验问题还是软件问题?
Jeremy Frey:正如我在回答前一个问题时所说,数据是至关重要的。目前的ML方法当然需要大量高质量的数据(当不确定性被理解后,ML方法会利用差的数据。使用ML方法过滤掉质量差的数据也是可能的,但那样就限制了可用数据的广度)。原则上,只要我们有合成和表征的高通量技术(不需要很多物质本身),许多化学特性都有足够的数据。对于更多变量的数据来说,获得高质量的数据要困难得多,如反应产率,它可能严重依赖于条件。所以有一个更大的实验空间需要覆盖。当涉及到生物反应时,就会有更大的可变性,因此也就有更大的难度。我们需要规模化的工作,并提高可靠性,因此硬件和软件/数据问题都会存在。
看待这个问题的一个相关方式是,这与经典的模式识别系统不同(例如用于自动驾驶汽车的计算机视觉,收集大量的数据是可行的和可取的)。科学发现作为一个问题领域,带有在更经典的物理模型中捕获的广泛的先验知识。在不太庞大的数据体系中,面临的挑战是如何结合数据驱动的模型来利用这些知识。在我们的研讨会上,我们已经研究了许多这样的方法论。
您认为人工智能的哪些方面最容易被广大科学界误解?又能做些什么来解决这个问题?
Jeremy Frey:人工智能究竟能实现什么?业界可能希望AI能对预测分子特性做些什么。然而,与业界许多人更广泛的想象(预测复杂成分的特性,如用于药物输送、材料涂层、功能材料和生物相互作用的预测)相比,AI仍然是有限的。即使是那些认识到现有数据的局限性阻碍了ML的应用的人,也可能认为只要我们有大量的数据,那么天空就是极限。现实是,化学的异质性和复杂性仍然超过了计算能力。需要将ML和计算化学和新的洞察力结合起来。
偏见的问题存在于AI/ML在化学的应用中。也许并不像其他一些领域那样严重。由于训练集的选择没有通过测试集进行,因而产生了意外偏差,这是众所周知的,但很容易被遗忘。这与化学的多样性密切相关,并促使人们对相似/不相似的化合物集开展了大量的工作。扩大一些视野,例如药物设计中的应用也会陷入同样的陷阱,即训练集如何影响可能的结果,以及训练集对全球业界的不同单位多大程度上合适。在极限的情况下,我们如何处理个性化的医学,难道为我们每个人建立一个ML模型?
基于人工智能的技术可以是强大的方法,但有时该领域的成就是否被过度炒作?对于试图评估获益是否超出数据和结果支持范围的非专业人士,您有什么建议吗?或者有什么非专家应该注意的化学论文中的常见问题?
Jeremy Frey:一定要仔细研究化学问题。使用的是什么数据?分子或材料是什么样子的?模型的输出与输入有什么不同?推荐的分子是否真的能解决问题?它们是潜在的药物还是经过测试的药物?是建议的材料还是在设备中测试过的材料?是否提供了输入数据和模型的解释?这些都是无意中出现偏差的地方。
这个Network关注的关键问题是 "为什么该模型给出了这些预测?",建议的药物或材料是否照亮了化学的新思路或为化学服务?这些模型的可解释性,对于理解AI/ML为化学带来的改变是非常重要的。这些问题也有助于Network从哲学角度思考AI如何改变化学发现的本质。
对于方法、数据或定制软件,您是否希望业界采用任何报告标准,以促进工作的重复使用和复制?
Jeremy Frey:数据的标准化还远未完成或达成一致,但事情正在变得更好。在描述ML模型的标准方面,业界还有很长的路要走。我们确实有整体的FAIR原则,它同样适用于数据和工作的所有方面。像Jupyter notebooks这样的工具和能读写的编程非常适用于化学中的ML工作。总的来说,我支持使用尽可能多的开源和开放科学工具,但也要充分认识到优质商业软件的范围越来越大。即使在使用商业代码时,也必须能够描述数据是如何被操作的,并确保数据模型可以使用开放格式进行交换。
这些想法与解释ML模型的能力也是相辅相成的。Network的主旨在于科学发现。获得一个问题的解决方案(例如,下一种药物、下一种材料的制造、如何优化设计)只是发现之旅的一部分。需要理解 "为什么"。为什么ML系统得出了这个答案?这是一个偏见的例子吗?我们能说明和解释这个结果吗(即使是后见之明)?我们学到了什么?我们能从这些模型中提取新的理论和想法吗?这显然是发现的关键(ML成为实验的一部分)。
我们可以进一步展望未来,询问AI/ML方法是否不仅可以提供一个结果,提供一个理解 "为什么"的途径,还可以开始帮助问 "什么"。增强的智能系统是否也能帮助提出假说?在复杂化学的某些领域,如功能材料和与生物学的相互作用,系统的复杂性使AI可以通过这种方式产生重大影响。
基于AI的技术与机器人技术和自动检测分析有一些明显的协同作用。你认为目前有哪些瓶颈限制了向更自主的综合系统的发展?
Jeremy Frey:人工智能和机器人技术之间的协同作用是非常有趣的。这些想法可能在自主汽车/驾驶和机器人手术中最清楚。在化学领域,实验室机器人有很大的潜力,我怀疑目前主要是在工业实验室(由于成本原因),但随着我们看到机器人在几乎消费者级别上的采用,我们可以期待在实验室看到更多的机器人。现在有许多黑暗的实验室,实际上是完全自动化的,可供研究人员使用。当然,外包合成和测量已经有很长一段时间了,对于用户来说,也许该实验室是由机器人还是由人操作并不重要,尽管成本和产量可能有所不同。
我认为许多化学过程的复杂性是对机器人作用的一种限制。研究人员在简化过程和标准化合成方面已经做了很多工作,例如利用流动技术,在这些领域,机器人技术的使用已经很先进。也许在另一个极端,定制的物理化学实验以一种不同的,但仍然非常重要的方式受益于自动化和计算机控制,这是已经推动了多年的实验。然而,人工智能技术的兴起有可能彻底改变从原始实验数据中提取信息(和知识)的方式,从而改变哪些实验可能需要进行这个问题的本质。
有什么具体的技术是你希望看到的,可以扩大人工智能和机器学习方法的效用?
Jeremy Frey:我们需要了解如何基于比最近许多ML工作所需的更小的数据量来进行预测。我们可以把这称为小型深度学习。这项研究超越了化学应用,当然在AI/ML遇到人类学习的地方非常重要。具体到化学,我们需要开发处理能量/结构“地形图”的方法,也就是三维结构/构型,因为这在分子之间的相互作用中至关重要,无论是复杂的混合物、材料还是生物相互作用。
ML中经常出现的问题是处理高维空间,数据相对稀疏,因此需要降维。虽然这是深度学习经常遇到的问题,但考虑到化学数据的性质,在算法和数学基础上的持续工作将对化学应用非常有用。对 "不确定性"的更好理解、量化和建模将是有用的。正如上面提到的对高质量数据的需求,当我们部署人工智能系统时,它的局限性当然是"垃圾进-垃圾出"问题。也就是说,一个经过训练的人工智能模型总是会产生一个输出,即使是在它没有被训练过的环境中也是如此。适当地量化不确定性,并对这些预测的信心水平进行预测,这往往是至关重要的。建立在贝叶斯推理原则基础上的方法有助于做到这一点,但将它们扩展到非常大和复杂的模型仍然具有挑战性。
考虑到化学空间,我们确实需要对这个概念有更好的理解,当然最理想的是,我们仍然需要一张化学空间的地图。我们可以期望这样的地图是什么样子的,这可能是一个不同的讨论主题,并导致对化学作为导航与发现的思考。一个静态的化学地图的概念永远不会反映这个学科的多样性和灵活性。分子或材料结构的概念隐含地涉及时间和能量,并取决于分子的环境或它的用途。物种之间的转化也同样重要,所以在很多方面,我们要寻找的不仅仅是一张地图,甚至不是一张叠加了路径的地图,而是对化学时空的真实描述。我希望,通过可解释的人工智能模型,我们可以开始建立化学时空的区域,并获得真正的洞察力和实际应用。
任何有助于理解化学与生物学互动的技术都将支持对药物、农业化学品和环境可持续材料的更好预测。
量子计算机是新技术的一个例子,它将成为能够对化学产生重大影响的技术,因为可用的量子比特的数量正在迅速增加。在我看来,它们将不仅仅被用来进行量子化学计算,还可以做一些事情,比如处理庞大的化学空间的有效搜索。但是,由于在传统计算机的化学编程方面投入了大量的精力,量子计算机在解决化学问题方面的速度还需要一些时间。展望未来,Network正计划举办一些关于量子计算机化学编程的研讨会。
您希望看到数字基础设施的哪些改进,以帮助和支持化学界更广泛地使用人工智能和机器学习技术?
Jeremy Frey:我们当然需要一个更先进的全球基础设施。鼓励带有尽可能多的元数据(语义信息)的存储库。理想情况下,元数据应该是机器和人类可读的,有背景故事,以使业界能够最好地利用我们拥有的数据。我们有这个故事的元素,但它们远远不够完整或易于使用。
基于云的系统正在使定制的硬件可用,以满足ML和QC的对比需求,甚至量子计算机也可以通过这种方式获得。我们需要开始培训化学家来使用这些系统。本科化学课程的重新设计正在进行中,但高素质化学家的再培训机会也将非常重要。同样重要的是把化学的新能力带给年轻的观众,亲身体验化学和人工智能的推广是必须的。
参考资料
https://www.nature.com/articles/s41557-021-00779-y
----------- End -----------