首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当你在吃鸡的时候,机器人已经学了30万首诗歌了

1

让机器来写诗,让机器人实现吟诗作对,这些技术对于今天的人们来说,甚至是天方夜谭,然而你并不了解的这一切正在发生。

九歌作诗机器人,自唐以来的30多万首诗歌,它一并吸收,并且记忆深刻,能够灵活组合应用,在机智过人的现场,它通过了图灵测试,坚持到了最后。

小薇机器人,学习了精心挑选的1万副对联,挑战人类最佳对联选手,由于机器人惯常用七律,被人类轻易的下了套,最终挑战失败,但是最后加了一道题,是千古绝对,小薇最终对出来了,即使没有人类那么工整,对答中也无不透漏着人类的智慧。

难道机器人的时代到来了吗?

那么,这些类型的机器人凭什么敢挑战人类的智慧,它们的核心技术又是什么呢?

2

是自然语言处理,我们就是想让机器人以人类的大脑去思考问题,创造出人类的智慧。

我们先看这些颇具才华的机器人,是如何学习着30多万首诗歌和1万副对联的。

那就必然涉及到一个概念,文本分割,机器将这些成型的诗歌和对联分割成字和词组,这样才有利于机器的学习,这其实与我们幼时学习汉字,词语是一样的,分别对这些语句块进行理解,进行分类,找近义词,反义词,机器人也是这样学习的。

在文本分割的技术实现当中,用到了监督学习,需要人为的设定几个可选的类别,对文本进行分割以后,就要进行文本分类,根据文本的特征,将其分到预先设定好的类别中,可以有多个类,一般的情况下是“积极情感文本”、“消极情感文本”两种类型。

人类已经设定好利用待分类数据的特征与类别进行匹配,最优的匹配结果,将作为分类结果。

文本分类分为两个过程:学习过程、分类过程

学习的时候是有计算机自动总结分类,然后对新文本进行分类

在于如何构建文本的特征空间,说白了,就是如何快速给这些词语定性,怎样才能快速有效的进行文本的分类

用根据匹配度判断文档所属类别,这很最初级的,差不多是找类别的近义词,很显然,这不能算上一个很好的智能。

那加入人为设定的推理规则可不可以呢,我们可以提高文本分类的准确率,但是,我们破坏了机器学习的规则,有些东西需要机器自己去体会,我们不要让机器很纠结。

虽然机器理解起来比较慢,但是我可以在量上训练机器,计算机自己通过对大量同类文本的学习得出经验,作为新的文本分类依据,这才是机器学习的思想,说的专业一点,是统计学习方法

3

在文本分类问题中,最适合的就是向量空间模型(VSM),这时候不仅考虑哪些词语,而且还考虑了词频,利用词频信息对文本特征进行加权,分类准确度就很高了,但他也有一个缺点,就是这个模型完全忽略了词语之间的上下文信息,表达的信息量存在上限。

所以人类处理这些信息可以随着时间的变化自由运用,因为人更有创造性,但是这种创造性没有大量知识的积累,也展现不了太大的优势,你让一个一个普通人与机器比诗歌,毫无疑问机器完胜,也就是这个道理。

为了弱化机器的这个缺点,我们引入了词袋模型,它是主要用在自然语言处理和文本分析上,

词向量只能表征单个词,如果要表示文本,需要做一些额外的处理,这一系列的词我用一个袋子将它们装起来,这里是一系列词的集合,方便机器学习的时候提取,所以也叫做词袋模型,

计算机不认识文字,只认识数字,那在计算机中怎么表示词袋模型呢?其实很简单,给每个词一个位置或者索引就可以了,这样让机器识别和提取就比较方便。

机器永远套在以往学习的圈子当中,它唯一的突破就是不断的学习,我们人类也是一样,要想不被机器取代,也是要不断的学习。

4

词形还原,是把一个任何形式的语言词汇还原为一般形式,它能更倾向于表达完整语义,而词干提取是抽取词的词干或词根形式,可能更多的会从一个大范围内进行检索。

词干提取更多被应用于信息检索领域,用于扩展检索,快速锁定检索的范围。

词形还原更主要被应用于文本挖掘、自然语言处理,这时候我们就要用于更细粒度、更为准确的文本分析和表达

只有将这两者结合使用,才能将自然语言处理发挥到极致

情感分析,是对这些词语的倾向性分析,从而对用户的意见进行挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.

其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等,从而能达到理解人的情感的一种效果。

情感极性分析的目的是对文本进行褒义、贬义、中性的判断。

在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。

而机器学习方法的思路是先选出一部分表达积极情感的文本和一部分表达消极情感的文本,用机器学习方法进行训练,获得一个情感分类器。

再通过这个情感分类器对所有文本进行积极和消极的二分分类。

最终的分类可以为文本给出0或1这样的类别,也可以给出一个概率值,比如”这个文本的积极概率是90%,消极概率是10%“

Python 有良好的程序包可以进行情感分类,那就是Python 自然语言处理包,Natural Language Toolkit ,简称NLTK

5

一个语义挖掘的利器:主题模型。

主题模型是对文字隐含主题进行建模的方法,它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。

机器要想知道我们所写的一句话的意义,必须要知道要知道我所说这句话前后左右的语境,这样才能更更好的理解我当前的这句话。

它可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布,我们可以通过一些距离公式来计算出两篇文档的语义距离,从而得到它们之间的相似度

它是无监督的,完全自动化的。我们只需要提供训练文档,它就可以自动训练出各种概率,无需任何人工标注过程。

它是跟语言无关的,任何语言只要能够对它进行分词,就可以进行训练,得到它的主题分布。

机器人最终会理解我们人类所作的诗歌,就需要对其训练大量优秀的诗歌,让机器人在理解人类语言上有一个质的提升。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G024RJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券