Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[新知] MIT开发能修改维基百科文章错误的自动系统

[新知] MIT开发能修改维基百科文章错误的自动系统

作者头像
阿泽
发布于 2020-03-26 09:14:27
发布于 2020-03-26 09:14:27
4430
举报

维基百科自动编辑系统,能够根据输入的新资讯,判断维基百科文章中错误的地方进行修复。

麻省理工学院(MIT)研究人员创建能够自动维护维基百科的系统,修正文章中错误的资料,减少需要花费的人工编辑时间。维基百科具有数百万篇文章,文章需要不断更新以呈现最新的资讯,包括进行文章扩展、重写或是资料修改等,而这些工作需要由全世界的志工手动完成。

这个新的自动系统,能够以人工智慧修复维基百科文章中的错误,其使用一系列的演算法,透过利用网路上最新的资讯,辨识出文章中的错误,并且生成句子修复错误。该系统背后裡用了许多文字生成技术,可用来辨识两个句子间矛盾的地方,并将他们融合在一起。

目前也存在许多自动编辑维基百科的机器人,但这些工具通常用于减轻破坏,或是将严格定义的资讯放进预定义的模板中,研究人员希望新开发的系统,只要给定一段非结构化的句子,就能以人性化的方式,修改维基百科文章中的句子,研究人员提到,现存的机器人多数是以规则执行任务,但是他们的系统可以推论两个句子矛盾之处,并且产生连贯的文字。

用来训练自动系统模型的资料集,便是包含正确资讯的语句以及维基百科语句所构成的句对,而这些句对会被标上同意、不同意或中性三种标籤,同意代表正确资讯的语句和维基百科的语句资讯相符,不同意则反之,中性则代表没有足够的判断资讯。

自动化系统的输入有两个,一个是维基百科文章中过时的句子,另一个为包含正确资讯的语句,系统需要根据后者,自动调整维基百科中错误的句子,过程可能需要删除和保留特定单词、更新部分的事实,或是保留样式和语法。

自动化系统由两个模型组成,其一是事实检查分类器,透过预训练将句对标记为同意、不同意或中性,而系统处理的重点在于不同意标籤的句对,而另一个分类器,则负责辨识维基百科错误的语句中,导致句对被标记为不同意的单词,并且以双编码器与解码器框架,将包含正确资讯语句的重点单词,融入到维基百科需要修改的语句,输出最终的句子。

经SARI评估证实,新模型所产生的结果,得分都高于传统的方法,SARI方法是评估机器删除、增加和保留字词,与人工修改的差异。研究团队提到,新模型所进行的事实修正更为准确,也跟人类更为相近。

Automated system can rewrite outdated sentences in Wikipedia articles

http://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Flink实战应用指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每天上千条文本过时,累死志愿者的维基百科被MIT最新AI接手啦!
维基百科作为一个开放协同式的百科网站,是全世界最受欢迎的十大网站之一。目前,维基百科已经累积了超过上百万个词条。
大数据文摘
2020/04/01
4760
每天上千条文本过时,累死志愿者的维基百科被MIT最新AI接手啦!
维基百科有6000多机器人编辑,那么问题来了,他们要吵架怎么办?
很多人可能都听说人工智能已经可以写文章了,但是你可能不知道编辑机器人早就已经是维基百科最重要的贡献群体之一。 2001 年,维基百科引入了机器人编辑者的概念,任何用户可以为自己研发的机器人单独建立一个维基百科帐号,只要根据维基百科社区官方的规定对帐号进行标注,即可让机器人参与维基百科的编辑。 2014 年,机器人在维基百科的所有语言中完成了 15% 的编辑动作,他们识别、撤销破坏行为,锁定遭到频繁篡改的页面、识别错别字和病句、创建不同语言之间的链接、自动导入站外内容、进行数据挖掘、识别侵权的内容并为新手
机器人网
2018/04/24
9640
维基百科有6000多机器人编辑,那么问题来了,他们要吵架怎么办?
ChineseWiki︱百万中文维基百科词条下载与整理
维基百科开源的中文词条内容,收集了99W+词条,当然比百度少了不少。 有效处理该原始语料的方法主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。 两种处理都比较粗糙,导致:
悟乙己
2019/05/26
6.3K0
维基百科你已经是个大百科了,该自己学会用ML识别原文出处了
作者:Miriam Redi、Jonathan Morgan、Dario Taraborelli、Besnik Fetahu
机器之心
2019/05/07
6190
维基百科你已经是个大百科了,该自己学会用ML识别原文出处了
GPT-3竟然有10个盲点,艾伦研究所推出GPT「鉴错师」
OpenAI创始人Sam Altman也表示:对GPT-3的宣传有点过了,它还存在很严重的缺点,也会犯很严重的错误。
新智元
2021/07/29
5570
斯坦福大学陈丹琦等人解读机器阅读最新进展:超越局部模式匹配
AI 科技评论:不久前,斯坦福大学的计算机科学博士陈丹琦的一篇长达 156 页的毕业论文《Neural Reading Comprehension and Beyond》成为「爆款文章」,一时引起了不小轰动。而本文是她与同样师从 Christopher Manning 的同学 Peng Qi 一起发表的文章,两位来自斯坦福大学的 NLP 大牛在文中一起探索了机器阅读的最新进展。AI 科技评论编译如下。
AI研习社
2019/05/08
4600
斯坦福大学陈丹琦等人解读机器阅读最新进展:超越局部模式匹配
维基百科背后,有场旷日持久的机器人编辑之战,开发者都不曾料到
王新民 | 编译自Gizmodo 维基百科上的人类编辑,经常由于修改意见的不同而产生冲突。一份英国的新研究表明,维基百科上的软件机器人之间,也有类似的在线冲突。 PLOS ONE上发表的一项新研究提到,维基百科的机器人经常修改和撤消对方的编辑。这些在线算法有着独特的指令和目标,多年来在内容修改上进行着毫无结果的 “战斗”。这项研究表明,即使在“愚蠢”的机器人之间,也能够产生复杂的交互行为,开发人员需要时刻关注着机器人的一举一动。这一发现不仅影响着维基百科页面的质量,也对人工智能的发展有深远影响,特别是在
量子位
2018/03/21
9030
维基百科背后,有场旷日持久的机器人编辑之战,开发者都不曾料到
Quicksilver:利用AI技术修复百科存在的问题
Miriam Adelson是一位很有成就的医生,已发表了大约一百篇关于成瘾生理学和治疗的研究论文。她还在拉斯维加斯经营一家备受瞩目的药物滥用诊所。并且,她是以色列最大的报纸的出版商,还有她的丈夫谢尔顿,是一位慈善家和有影响力的共和党捐助者(亿万富翁)。
AiTechYun
2018/08/16
5810
Quicksilver:利用AI技术修复百科存在的问题
详解中文维基百科数据处理流程及脚本代码
最近在做词向量相关工作,词向量的训练数据采用中文维基百科数据,训练之前,要对维基百科数据进行处理,这篇文章记录了一些处理过程及相关的脚本。
zenRRan
2018/07/25
2.4K0
详解中文维基百科数据处理流程及脚本代码
学界 | 谷歌大脑提出通过多文档摘要方法生成维基百科,可处理较长序列
选自arXiv 作者:Peter J. Liu、Mohammad Saleh 等 机器之心编译 参与:白悦、路雪 近日,谷歌大脑发布论文,提出一种通过提取多文档摘要来生成英文维基百科文章的方法,该方法可以处理长序列。 序列到序列框架已被证明在自然语言序列转导任务(如机器翻译)中取得了成功。最近,神经技术被应用于提取新闻文章中的单文档、抽象(释义)文本摘要(Rush et al. (2015), Nallapati et al. (2016))。之前的研究以端到端的方式训练监督模型的输入——从一篇文章的第一
机器之心
2018/05/10
1.5K0
维基百科中的数据科学:手把手教你用Python读懂全球最大百科全书
几年前谁能想到,匿名贡献者们的义务工作竟创造出前所未有的巨大在线知识库?维基百科不仅是你写大学论文时最好的信息渠道,也是一个极其丰富的数据源。
大数据文摘
2018/11/07
1.8K0
关于维基百科你不知道的十件事:
关于维基百科你不知道的十件事是专门让那些缺乏维基百科经验的人,如记者、新编辑者或新读者,能够对维基百科有一些较深入的认知。这些内容并不会带给那些已经很有经验的维基百科编辑者什么耳目一新的地方,但是我们希望它可以帮助世界上其他人对我们的工作能有更清楚的了解。
Enjoy233
2019/03/05
1.4K0
windows下使用word2vec训练维基百科中文语料全攻略!(一)
训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2vec,所以,今天小编文文带你使用维基百科训练词向量。
用户1332428
2019/03/07
4990
windows下使用word2vec训练维基百科中文语料全攻略!(一)
探索 | 神经网络到底是如何思考的?MIT精英们做了这么一个实验室来搞清楚
作者 | Larry Hardesty等 编译 | ziqi Zhang 没错!人工智能是很火,神经网络也很火,但你真的懂它吗?神经网络到底是怎么工作的?没有人知道。 它像一只黑匣子,我们可以用他,却理解不了它。可是最近,麻省理工学院(MIT)的精英们似乎找了答案。 这些精英们采用了什么方法?他们找出的答案又在多大程度上具有可信度呢?人们对这个方法有怎样的质疑?他们的方法能带领人们真正解开这个黑匣子的秘密吗? AI科技大本营编译了这篇发表在麻省理工大学网站上的《神经网络如何思考》一文,以下,e
AI科技大本营
2018/04/28
6632
AI学者也用维基百科「打广告」?这个词条有点可疑
「遇事不决先谷歌」已经是现在很多人查找信息的标准起手了。如果搜索一个词条,百科网站的结果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息,虽然可能不够严谨,但也被很多人作为重要的信息、知识来源。
机器之心
2020/03/25
4270
Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性
今天为大家介绍的是来自Fabio Petroni团队的一篇论文。可验证性是维基百科的核心内容政策之一:所有的陈述都需要有引用来支撑。维持和提高维基百科参考资料的质量是一个重要挑战。作者展示了如何借助人工智能(AI)来应对改善参考资料的过程,这一AI系统由信息检索系统和语言模型驱动。我们称这个基于神经网络的系统为SIDE,它能够识别那些不太可能支持其声明的维基百科引用,并随后从网上推荐更好的引用。
DrugAI
2024/02/23
1680
Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性
斯坦福齐鹏、陈丹琦解读两大新QA数据集:超越模式匹配的机器阅读理解
你是否曾经在谷歌上随意搜索过一些问题?比如「世界上有多少个国家」,当你看到谷歌向你展示的是准确的答案,而不只是链接列表时,你是否感到十分惊讶?这个功能显然很酷炫也很有用,但是它仍然有局限。如果你搜索一个稍微复杂的问题,比如「我需要骑多长时间的自行车才能消耗掉一个巨无霸汉堡的卡路里」,你不会直接从谷歌搜索那里得到一个好的答案(即使任何人都可以通过谷歌搜索给出的第一个或第二个链接的内容得到答案)。
机器之心
2019/03/15
1.7K0
斯坦福齐鹏、陈丹琦解读两大新QA数据集:超越模式匹配的机器阅读理解
论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加
---- 新智元报道   编辑:LRS 【新智元导读】Meta最近放出全新写作语言模型PEER,完全模拟人类写作过程,从打草稿到重复编辑修改都帮你干了,还能解释修改原因! 2020年5月至今,GPT-3发布近两年半的时间里,在其神奇的文本生成能力加持下,已经能够很好地辅助人类进行写作了。 但GPT-3说到底也就是个文本生成模型,与人类的写作过程可以说是完全不同了。 比如要写一篇论文或者作文,我们需要先在脑海里构造一个框架,查相关资料,打草稿,再找导师不断地修改、润色文字,期间可能还会修改思路,最终才可
新智元
2022/09/02
4170
论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加
学界 | 女朋友说「我想要MAC」,OpenAI帮直男get到是口红还是电脑
AI 科技评论按:语言词汇的多义性已经是一个越发让人头疼的问题。比如女生对男朋友说:「生日礼物我想要MAC」,本来心怀期待地揣测他买来的唇彩会是什么色,结果收到的可能是一台苹果笔记本电脑…… 苹果电
AI科技评论
2018/03/06
9080
学界 | 女朋友说「我想要MAC」,OpenAI帮直男get到是口红还是电脑
Google开源ToTTo数据集,你的模型还「撑」得住吗?
然而,尽管达到了高水平的流畅性,神经系统仍然容易产生「幻觉」(即产生的文本尽管可以被理解,但是含义并不忠实于源文本),这使得这些系统不能用于许多需要高准确性的应用。
新智元
2021/02/12
5910
Google开源ToTTo数据集,你的模型还「撑」得住吗?
推荐阅读
每天上千条文本过时,累死志愿者的维基百科被MIT最新AI接手啦!
4760
维基百科有6000多机器人编辑,那么问题来了,他们要吵架怎么办?
9640
ChineseWiki︱百万中文维基百科词条下载与整理
6.3K0
维基百科你已经是个大百科了,该自己学会用ML识别原文出处了
6190
GPT-3竟然有10个盲点,艾伦研究所推出GPT「鉴错师」
5570
斯坦福大学陈丹琦等人解读机器阅读最新进展:超越局部模式匹配
4600
维基百科背后,有场旷日持久的机器人编辑之战,开发者都不曾料到
9030
Quicksilver:利用AI技术修复百科存在的问题
5810
详解中文维基百科数据处理流程及脚本代码
2.4K0
学界 | 谷歌大脑提出通过多文档摘要方法生成维基百科,可处理较长序列
1.5K0
维基百科中的数据科学:手把手教你用Python读懂全球最大百科全书
1.8K0
关于维基百科你不知道的十件事:
1.4K0
windows下使用word2vec训练维基百科中文语料全攻略!(一)
4990
探索 | 神经网络到底是如何思考的?MIT精英们做了这么一个实验室来搞清楚
6632
AI学者也用维基百科「打广告」?这个词条有点可疑
4270
Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性
1680
斯坦福齐鹏、陈丹琦解读两大新QA数据集:超越模式匹配的机器阅读理解
1.7K0
论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加
4170
学界 | 女朋友说「我想要MAC」,OpenAI帮直男get到是口红还是电脑
9080
Google开源ToTTo数据集,你的模型还「撑」得住吗?
5910
相关推荐
每天上千条文本过时,累死志愿者的维基百科被MIT最新AI接手啦!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档