科学作者的工作,包括阅读充满专业技术术语的期刊论文,并弄清楚如何用没有科学背景的读者可以理解的语言解释他们的内容。
现在,麻省理工学院和其他地方的一个科学家团队开发了一种神经网络,一种人工智能(AI),它可以做很多相同的事情,至少在有限的范围内:它可以阅读科学论文,并在一两句话中给出简单的英文摘要。
即使在这种有限的形式中,这样的神经网络也可以用来帮助编辑,作家和科学家扫描大量的论文,以初步了解他们的内容。但是团队开发的方法除了语言处理之外还可以在各种其他领域找到应用,包括机器翻译和语音识别。
麻省理工学院的研究生鲁曼·丹戈夫斯基和李静(Li Jing)在《计算语言学协会学报》上发表的一篇论文中描述了这项工作。
从物理学的AI到自然语言
这项工作是由于一个不相关的项目而产生的,该项目涉及开发基于神经网络的新的人工智能方法,旨在解决物理学中的某些棘手问题。然而,研究人员很快意识到,同样的方法可以用于解决其他困难的计算问题,包括自然语言处理,其方式可能超过现有的神经网络系统。
“我们已经在AI工作了几年,”Soljačić说。“我们使用人工智能来帮助我们的研究,主要是为了更好地完成物理学。当我们对AI更加熟悉时,我们会注意到每隔一段时间就有机会增加AI领域,因为我们从物理学中知道某些东西 - 某种数学结构或物理学中的某种定律。我们注意到,嘿,如果我们使用它,它实际上可以帮助这个或那个特定的AI算法。“
他说,这种方法可用于各种特定类型的任务,但不是全部。“我们不能说这对所有AI都有用,但有些情况下我们可以利用物理学的洞察来改进给定的AI算法。”
一般来说,神经网络试图模仿人类学习某些新事物的方式:计算机检查许多不同的例子,“学习”关键的潜在模式是什么。这种系统广泛用于模式识别,例如学习识别照片中描绘的对象。
但是神经网络通常难以将来自长串数据的信息关联起来,例如在解释研究论文时所需要的。研究人员表示,已经使用各种技巧来改善这种能力,包括称为长短时记忆(LSTM)和门控递归单元(GRU)的技术,但这些技术仍然远远不能满足真正的自然语言处理所需。
该团队提出了一种替代系统,它不是基于矩阵的算法,而是像大多数传统神经网络一样,是基于在多维空间中旋转的矢量。关键概念是他们称之为旋转记忆单位(RUM)。
本质上,系统通过多维空间中的向量表示文本中的每个单词 - 指向特定方向的特定长度的行。每个后续单词在某个方向上摆动该向量,在理论空间中表示,最终可以有数千个维度。在该过程结束时,最终的向量或向量集被转换回其对应的字符串。
“RUM帮助神经网络很好地完成两件事,”Nakov说。“这有助于他们更好地记住,并使他们能够更准确地回忆信息。”
在开发RUM系统以帮助处理某些棘手的物理问题(例如复杂工程材料中的光行为)之后,“我们意识到我们认为这种方法可能有用的地方之一就是自然语言处理,”Soljačić回忆说与Tatalović的对话,他指出,这样一个工具对于他作为一名编辑试图决定撰写哪些论文的工作很有用。Tatalović当时正在探索科学新闻中的人工智能作为他的骑士团契项目。
“所以我们尝试了一些自然语言处理任务,”Soljačić说。“我们尝试的一个是总结文章,这看起来效果很好。”
证据在于阅读
例如,他们通过传统的基于LSTM的神经网络和基于RUM的系统提供相同的研究论文。得出的摘要有很大不同。
LSTM系统得出了这个高度重复且相当技术性的总结:“Baylisascariasis”杀死老鼠,危及阿勒格尼森林,并导致失明或严重后果等疾病。这种被称为“baylisascariasis”的感染导致老鼠死亡,危及阿勒格尼森林,并导致失明或严重后果等疾病。这种被称为“baylisascariasis”的感染杀死了老鼠,已经威胁到了阿勒格尼森林。
基于同一篇论文,RUM系统产生了一个更具可读性的摘要,并且不包括不必要的重复短语:城市浣熊可能比以前假设的更多地感染人。7%的受访个体检测出浣熊蛔虫抗体阳性。圣巴巴拉90%以上的浣熊都是这种寄生虫的寄主。
基于RUM的系统已经扩展,因此它可以“阅读”整篇研究论文,而不仅仅是摘要,以产生其内容的摘要。研究人员甚至尝试在他们自己的研究论文中使用该系统描述这些发现 - 这篇新闻报道试图总结的论文。
以下是新神经网络的总结:研究人员在RUM的旋转单元上开发了一种新的表示过程,RUM是一种可用于解决自然语言处理中广泛神经革命的循环记忆。
这项研究得到了陆军研究办公室、国家科学基金会、麻省理工学院- sensetime人工智能联盟和半导体研究公司的支持。该团队还得到了《科学日报》网站的帮助,该网站上的文章被用于训练本研究中的一些人工智能模型。
领取专属 10元无门槛券
私享最新 技术干货