多亏了新的人工智能系统,科学家们可以更容易地在浩如烟海的已发表的癌症研究文献中搜索。
该系统被称为Lion LBD,由剑桥大学的计算机科学家和癌症研究人员共同开发,旨在帮助科学家寻找与癌症相关的新发现。这是第一个基于文献的搜寻系统,旨在支持癌症研究。研究结果发表在《生物信息学》杂志上。
全球癌症研究在世界范围内吸引了大量的资金,而科学文献数量现在如此庞大,以至于研究人员都在努力跟上:至关重要的假设猜想的证据常常在文献发表后很长一段时间内才被发现。
癌症是一类非常复杂的疾病,尚未被人类完全了解,是全球第二大死因。癌症病变涉及到许多化学和生物化学分子的反应和变化,癌症研究正在各种各样的细分科学领域进行,这些领域在描述类似概念的方式上存在差异。
“作为一名专业的癌症研究人员,即使你知道自己在寻找什么,每天也会有成千上万的论文出现,”剑桥语言技术实验室的副主任安娜·科霍恩教授说,她与英国剑桥癌症研究所的将成田博士以及瑞典卡洛林斯卡学院的斯滕纽斯教授合作,领导了Lion LBD的开发。“Lion LBD利用人工智能技术帮助科学家跟上他们领域中已发表的文献,也可以通过将文献中已知的信息结合起来,在看似无关的信息源之间建立联系,帮助他们做出新的发现。”
Lion LBD中的“LBD(Literature-Based Discovery)”代表基于文献的发现,这是一个在20世纪80年代发展起来的概念,该概念旨在通过从断开的信息来源收集信息片段来寻求新的发现。原始版本的LBD背后的关键思想是,文献中从未明确联系过的概念可能通过中间概念间接联系在一起。
Lion LBD系统的设计允许实时搜索发现数千万出版物数据库中实体之间的间接关联,同时保留用户在其原始上下文中探索每个提及内容的能力。
“例如,你可能知道一种癌症药物会影响某一特定途径的现象,但是对于Lion LBD,你可能会发现一种完全针对不同疾病开发的药物会影响同一途径,”Korhonen说。
Lion LBD是第一个专门为癌症研究开发的系统。它特别关注癌症的分子生物学,并使用最先进的机器学习和自然语言处理技术,以检测文本中提到的癌症特征。对该系统的评估表明,它能够识别未发现的链接,并对潜在的相关概念的关联度进行排序。
该系统使用开放数据、开放源代码和开放标准构建,可以作为交互式基于Web的接口或可编程的API使用。
研究人员目前正在努力扩大LION LBD的范围,以包括更多的领域和关联。他们还与癌症研究人员密切合作,帮助和改进终端用户的研究技术。
该系统是与剑桥大学语言技术实验室、英国剑桥癌症研究所和瑞典卡罗琳斯卡研究所合作开发的,由医学研究委员会提供资助。
参考文献:
Sampo Pyysalo等人“Lion LBD:基于文献的癌症生物学发现系统”,《生物信息学》(2018年)。doi:10.1093/生物信息学/bty845
领取专属 10元无门槛券
私享最新 技术干货