Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >3分钟看完一篇论文,这个AI文本生成模型把今年NeurIPS 2300+篇总结了个遍

3分钟看完一篇论文,这个AI文本生成模型把今年NeurIPS 2300+篇总结了个遍

作者头像
量子位
发布于 2021-12-02 07:48:34
发布于 2021-12-02 07:48:34
9040
举报
文章被收录于专栏:量子位量子位
行早 发自 凹非寺 量子位 报道 | 公众号 QbitAI

今年NeurIPS大会论文已经放榜,终于可以学习一下大佬们的研究了。

不过,打开电脑,随便点开一篇,就是一大段密密麻麻的文字糊脸……只是摘要就有这么长,还有2300多篇,这工作量实在劝退。

能不能让论文们都做一道经典的语文题:“用一句话概括全文内容”?

还真可以。

最近Reddit上的一位博主发布了一篇今年的NeurIPS大会论文汇总,其中的每篇论文下方(红框中)都有一句由AI生成的高度凝练的总结。

而这款AI文本分析软件,其实就是东京工业大学团队开发的Paper Digest

它号称能帮你把论文阅读时间减少到3分钟:

除了总结论文内容以外,它还可以筛选出已经发布代码的论文。

同样,这次NeurIPS大会上的200多篇已发布代码的文章也被汇总了出来(可能会有疏漏)。

点击“code”,就可以直接跳转到相应的GitHub页面。

AI如何做好概括题

那这个AI文本分析神器应该怎么用呢?

很简单,先打开Paper Digest的官网(见文末链接)。

完成一些注册工作后,滑到一个搜索框的界面:

在这个搜索框里填上你要总结概括的论文的DOI号。

DOI号就像论文的身份证号,是独一无二的。以随便打开的一篇论文为例,它长这样(红框中即为DOI号):

填完之后,点击“Digest”就开始总结了:

只需几秒钟,就会有一句话的总结输出,你也可以选择一个最合适反馈给Paper Digest,帮他们丰富数据库

除了输入DOI号,如果你有本地的论文PDF文件,也可以直接导入。

是不是很方便?

其实这样方便好用的模型还不止一种。

比如,在一款免费学术搜索引擎Semantic Scholar里,也加入了一个类似的高度概括AI:TLDR。

TLDR(Too Long,Don’t Read),其实就是太长不看的意思……

在Semantic Scholar上搜索论文时,带有TLDR(红框)标志的就是AI生成的一句话总结。

具体到方法原理上,我们不妨以TLDR为例一起来看看。

举个例子,下图中上边的格子中是摘要,简介,结论中相对重要的段落和句子。TLDR会标记出突出的部分,然后组合成一个新的句子。

它的训练逻辑也很容易理解。

简单来说,就是先确定一个标准答案,然后把标准答案打乱,再让TLDR尝试复原。

这和人类提炼概括的过程也很像。

概括本身也需要忽视一些干扰,然后提取出最重要的部分。

所以在训练之前要准备两个数据库,也就是标准答案:一个是SciTLDR,它包含接近2000篇计算机科学相关论文,每篇论文都有一个最好的总结。

另一个是论文-标题对数据库。由于标题中一般有很多重要的语句,对生成TLDR来说很有帮助。

将这两个数据库分别加上控制码“<TITLE>”和“<TLDR>”之后进行混合,送入BART模型。

最后的BART模型是一个基于Transformer的预训练sequence-to-sequence去噪自编码器,它的训练步骤主要有两步:

首先用任意噪声破坏函数文本,相当于把标准答案打乱。

然后让模型学习重建原来的文本。

这整个学习策略就是CATTS。

来看看效果如何。

下图中TLDR-Auth是论文作者本人写的总结,TLDR-PR是本科学生读完论文写的总结。

BART和CATTS分别是原有模型和CATTS模型给出的总结。

从重合度看起来效果还是不错的。

相关推荐还需下功夫

不过,不论是TLDR还是Paper Digest,都有不完善的地方。

TLDR只针对计算机科学的论文进行了总结。

而对于Paper Digest,网友表示它虽然概括做得很好,但是相关推荐实在是不行,今后仍需改进。

而且Paper Digest并不适用于所有论文。

目前,它只对来源于开放获取期刊的论文或者本地PDF文件导入的论文有效。

但是不论哪种文本分析AI,都可以快速获取论文高度凝练的概括信息。

如果大家想快速了解今年NeurIPS大会的论文情况,可以从文末链接中找到这次的汇总。

参考链接:

[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/ [2]https://aclanthology.org/2020.findings-emnlp.428.pdf [3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/ [4]https://www.paper-digest.com/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
跟男朋友约会也要问语言模型?Nature:提idea,总结笔记,GPT-3竟成当代「科研民工」
语言模型的发展势头十分迅猛,几年前还只能在输入法上对下一个要输入的词进行自动补全,今天就已经可以帮助研究人员分析和撰写科学论文、生成代码了。
新智元
2023/01/07
4040
跟男朋友约会也要问语言模型?Nature:提idea,总结笔记,GPT-3竟成当代「科研民工」
一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势
师从李飞飞,现在在英伟达工作的大佬,用49条推文,带你回顾过去一年AI圈的重要研究。
量子位
2022/12/09
3950
一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周主要论文包括 NeurIPS 2022 获奖论文;英伟达提出的一句话生成 3D 模型等研究。 目录 Is
机器之心
2022/12/16
5440
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型
17篇论文,详解图的机器学习趋势 | NeurIPS 2019
本文来自德国Fraunhofer协会IAIS研究所的研究科学家Michael Galkin,他的研究课题主要是把知识图结合到对话AI中。
AI科技评论
2019/12/18
1.7K0
NeurIPS 2021获奖论文出炉!斯坦福表现亮眼,“随机变分推理”获时间检验奖,还有新增奖项
NeurIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),作为关于机器学习和计算神经科学的国际会议,每年固定在12月举行,由NIPS基金会主办。NeurIPS是机器学习领域的顶级会议 ,是神经计算方面最好的会议之一 。在中国计算机学会的国际学术会议排名中,NeurIPS为人工智能领域的A类会议。
AI科技评论
2021/12/02
8530
NeurIPS 2021获奖论文出炉!斯坦福表现亮眼,“随机变分推理”获时间检验奖,还有新增奖项
NeurIPS 2021六篇杰出论文公布,谷歌工程师11年前论文获时间检验奖
今天,大会委员会公布了NeurIPS 2021的杰出论文奖,时间测试奖,以及今年新设的数据集和测试基准最佳论文奖。
量子位
2021/12/02
4350
NeurIPS 2021六篇杰出论文公布,谷歌工程师11年前论文获时间检验奖
新晋 ACM Fellow 陶大程,8 篇 NeurIPS 论文详解
近日2019年 ACM Fellows 增选结果出炉之后,备受人们关注,其中除谢源、周礼栋、陈熙霖等业界和学术界著名学者外,目前在悉尼大学任教、且担任优必选科技人工智能首席科学家的陶大程教授也是人们瞩目的焦点。
AI科技评论
2019/12/27
1.3K0
新晋 ACM Fellow 陶大程,8 篇 NeurIPS 论文详解
[AI安全论文] 04.NLP知识简单总结及NLP论文撰写之道——Pvop老师
前一篇文章分享了生成对抗网络(GAN),详细讲解什么是生成对抗网络,及常用算法(CGAN、DCGAN、infoGAN、WGAN)、发展历程、预备知识。
Eastmount
2021/12/03
8130
[AI安全论文] 04.NLP知识简单总结及NLP论文撰写之道——Pvop老师
10年前,word2vec经典论文就预定了今天的NeurIPS时间检验奖
NeurIPS 是当前全球最负盛名的 AI 学术会议之一,全称是 Neural Information Processing Systems,神经信息处理系统大会,通常在每年 12 月由 NeurIPS 基金会主办。大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。
机器之心
2023/12/12
3410
10年前,word2vec经典论文就预定了今天的NeurIPS时间检验奖
【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习
一个月前和实验室的伙伴们打了一个跨领域半监督依存句法分析的比赛,比赛成绩出乎意料,在封闭测试下是第一名。这也是我第一次接触半监督学习。最近师兄在写这个评测论文,我也在帮忙准备下实验数据。昨天师兄发现了一个极其简单的半监督方法论文,挺后悔这么简单当初没用上。今天就来说说这个很简单的论文。
zenRRan
2019/07/04
1.8K0
【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习
高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 | OpenAI论文+代码
变栗 问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI 昨天上市即破发的小米,今天上午股价大涨近10%。这下雷军要笑了。 而且可以笑得更灿烂。更灿烂是什么样?来,我们用OpenAI刚刚发布的
量子位
2018/07/19
6490
AIGC的浪潮下,文本生成发展得怎么样了?
机器之心报道 编辑:小舟 1 月 12 日,在机器之心 AI 科技年会 AIGC 技术应用论坛上,澜舟科技创始人兼 CEO、中国计算机学会 CCF 副理事长、创新工场首席科学家周明发表了主题演讲《文本生成研究进展》。 以下为演讲的详细内容,机器之心进行了不改变原意的编辑、整理。 我今天主要介绍一下文本生成,尤其是可控文本生成目前的几个重要研究进展,包括文本生成基本方法与应用、文本生成中的可控方法研究、文本生成中如何融入知识和常识,长文本生成方法以及文本生成中的解码方法。在此之后,我会介绍一下澜舟科技在文本
机器之心
2023/03/29
7420
AIGC的浪潮下,文本生成发展得怎么样了?
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 10 个在文本生成任务上曾取得 SOTA 的经典模型。 第 1 期:Seq2Seq(RNN)、Seq2Seq(LSTM)、Seq2Seq+
机器之心
2023/03/29
1.2K0
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)
算法最热,arXiv论文接收率高一倍,Rebuttal真能改分,NeurIPS 2019最全报告+视频+笔记都在这里了
盛大的 NeurIPS 2019 刚刚落幕。今年,NeurIPS 官方总结了大会达投稿情况,并介绍了评审委员会在保证投稿质量、完善投稿机制上的种种探索。与此同时,今年 NeurIPS 官方也提供了演讲视频集,很多研究者分享了他们的参会笔记。
机器之心
2019/12/24
1.5K0
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
将训练好的句法分析模型的隐层,融入到经典的seq2seq NMT模型当中,使模型获得句法信息,来得到更好的翻译效果。解决了之前融入句法信息的方法:Tree RNN模型和Tree Linearization模型的错误传播的问题。
zenRRan
2019/07/04
6420
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
视频 | 2分钟论文:用谷歌「AI可解释性」看懂机器学习
AI 科技评论按:这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。 原标题:Building Blocks of AI
AI科技评论
2018/03/29
6960
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
机器之心报道 机器之心编辑部 统计了近三年引用量最高的 100 篇论文,我们发现…… 谁在发表最具影响力的 AI 研究?在如今「百花齐放」的时代,这个问题极具挖掘空间。 你可能会猜到一些结论:比如谷歌、微软、OpenAI、DeepMind 这些顶级机构,类似这样的结论只猜对了一半,还有另外一些信息,向我们揭露了原本不为人知的结论。 随着 AI 创新的飞速发展,尽快获取一些「情报」是至关重要的。毕竟几乎没人有时间去阅读所有的东西,但可以肯定的是,本文整理的这些论文具备改变人工智能技术发展方向的潜力。 对研发团
机器之心
2023/03/29
4940
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
文本生成 | retrieval augmentation(进阶篇Atlas)
每天给你送来NLP技术干货! ---- 来自:NLP日志 提纲 1 简介 2 模型架构 3 实验设计     3.1 损失函数     3.2 预训练任务     3.3 Efficient retriever fine-tuning 4 实验结论 5 分析     5.1 可解释性     5.2 可更新性 6 总结 参考文献 1 简介     之前写过若干篇retrieval augmentation的文章,对几种当下较为火热的retrieval augmentation的方法做了详细介绍,进而清晰
zenRRan
2022/09/14
9910
文本生成 | retrieval augmentation(进阶篇Atlas)
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
机器之心报道 机器之心编辑部 刚刚,ICML 2021揭晓了本届杰出论文奖和杰出论文荣誉提名奖,来自多伦多大学、谷歌大脑的研究获得了杰出论文奖,包括田渊栋、陆昱成在内的多位学者获得了杰出论文荣誉提名奖。此外,高通副总裁Max Welling和Hinton学生郑宇怀合著的研究获得了本次大会的时间检验奖。 近日,机器学习国际顶级会议 ICML 2021 以线上方式举行,本次会议共收到 5513 篇论文投稿,其中 1184 篇被接收,接收率为 21.5%,与上一年持平。 ICML 2021 程序主席张潼(香港科
机器之心
2023/03/29
2960
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
AIGC算法必读论文清单
本文做为一篇“门户”文章,主要目的是进行相关技术的梳理和指引。所以不会详细介绍每个技术的具体方案,只是简单描述内容,或以连接形式指路到笔者认为比较好的详解。由于时间原因,本文必定会有不少遗漏和疏忽,各位看官如果发现,请在评论区指出~(备注:本文创作发布于2023年初)
腾讯云开发者
2024/10/30
2750
AIGC算法必读论文清单
推荐阅读
跟男朋友约会也要问语言模型?Nature:提idea,总结笔记,GPT-3竟成当代「科研民工」
4040
一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势
3950
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型
5440
17篇论文,详解图的机器学习趋势 | NeurIPS 2019
1.7K0
NeurIPS 2021获奖论文出炉!斯坦福表现亮眼,“随机变分推理”获时间检验奖,还有新增奖项
8530
NeurIPS 2021六篇杰出论文公布,谷歌工程师11年前论文获时间检验奖
4350
新晋 ACM Fellow 陶大程,8 篇 NeurIPS 论文详解
1.3K0
[AI安全论文] 04.NLP知识简单总结及NLP论文撰写之道——Pvop老师
8130
10年前,word2vec经典论文就预定了今天的NeurIPS时间检验奖
3410
【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习
1.8K0
高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 | OpenAI论文+代码
6490
AIGC的浪潮下,文本生成发展得怎么样了?
7420
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)
1.2K0
算法最热,arXiv论文接收率高一倍,Rebuttal真能改分,NeurIPS 2019最全报告+视频+笔记都在这里了
1.5K0
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
6420
视频 | 2分钟论文:用谷歌「AI可解释性」看懂机器学习
6960
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
4940
文本生成 | retrieval augmentation(进阶篇Atlas)
9910
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
2960
AIGC算法必读论文清单
2750
相关推荐
跟男朋友约会也要问语言模型?Nature:提idea,总结笔记,GPT-3竟成当代「科研民工」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档