高层速读
关键信息:1.谷歌大脑教人工智能总结网页信息、生产维基百科风格的文章;
2.机器文本摘要的实际难度比较大,其结构是非常重复僵硬的。
众所周知,互联网永不停息地在生产文章、社交媒体帖子、米姆(meme,以衍生方式复制传播的互联网流行文化基因),制造欢乐和仇恨。而人们不可能不停阅读、了解一切。使用人工智能去分辨图片上的动物是猫还是狗有点做作,但如果这样的电脑能把信息浓缩成有用的片段,那就很方便了。不过,这并不是一件容易的事。
2017年4月发表的一篇论文,刚刚被今年举行的国际学习代表会议(ICLR)录取,它描述了文本摘要的实际难度。
这里有一个应用的例子:对堪萨斯上空的翅膀(Wings over Kansas)——一个飞行员和飞行爱好者的航空网站——这个条目进行解释。左边的段落是由计算机生成的组织摘要,右边内容取自维基百科页面。
左边是人工智能编写的条目,右边是人为编写的条目
总的来说,计算机生成的句子很简短;他们缺乏由人编写的文本的创造性天赋和节奏。谷歌大脑的最新努力稍微好一点:句子更长且看起来更自然。
在新句子开始时,如果没有清晰的大写字母,软件涂鸦的段落就有点难读了,而且大多数句子的结构都是相同的。总的来说,它的可读性还不错。而下一代模型,如果不抱很大期望的话,文本生成似乎还可以;尽管对于这个特殊的例子,其摘要方面并不好,因为它比相应的维基百科里的词条还长。
该模型的工作方式是获取给定主题的前十页(不包括维基百科条目),或者从维基百科文章的参考链接中抓取信息。大部份选定页面用于训练,并保留少数页面以开发和测试系统。
通过添加所有页面的文本并排练页面上的所有段落,一个长文档得以创建。通过分割成32000个单独的单词,并作为标签(用于搜集用户信息,根据不同的type 属性值,输入字段拥有多种形式)使用,文本被编码和缩短。
然后进入一个抽象模型,在这里标签中的长句被切短。这是一个聪明的伎俩,用来创造和总结文本。句子从早期提取阶段生成,不是从头开始构建的,这解释了为什么这个结构是非常重复和僵硬的。
总结
我们离有效的文本摘要或生成还有很长的路要走。虽然谷歌大脑项目相当有趣,但是使用这样一个系统来实现维基百科词条的自动生成可能是不明智的,至少从现在来看。
此外,由于它依赖互联网上前十个网站的流行程度来确定所有特定主题,如果这些网站不是特别可信的,由此产生的作品可能就不是很准确了。当然,你不能相信你在网上读到的所有东西。
信息来源:The Register
分享这篇文章
与同仁共同探讨AI行业动向
往期文章
领取专属 10元无门槛券
私享最新 技术干货