近日,Xenonstack 上推出了一篇名为《Overview of Artificial Intelligence and Role of Natural Language Processing in Big Data》文章,作者为 Jagreet Kaur,其全面概述了人工智能及其各个细分领域的状况,并着重介绍了大数据和自然语言处理的发展,对自然语言处理在大数据中扮演的角色作了探讨。机器之心对文章进行了编译,原文链接附于文末。
人工智能概述
AI 指代「人工智能」,是让机器能够像人类一样完成智能任务的技术。AI 使用智能完成自动化任务。
「人工智能」包含两个关键点:
人工智能的目标
人工智能三大阶段
人工智能的类型
什么使得系统智能化?
NLP、人工智能、机器学习、深度学习和神经网络之间的区别
什么是自然语言处理?
自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力。
NLP 的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。
下面是三个不同等级的语言学分析:
NLP 处理语言的不同方面,例如:
NLP 中理解语义分析的方法:
我们为什么需要 NLP
有了 NLP,有可能完成自动语音、自动文本编写这样的任务。
由于大型数据(文本)的存在,我们为什么不使用计算机的能力,不知疲倦地运行算法来完成这样的任务,花费的时间也更少。
这些任务包括 NLP 的其他应用,比如自动摘要(生成给定文本的总结)和机器翻译。
NLP 流程
如果要用语音产生文本,需要完成文本转语音任务
NLP 的机制涉及两个流程:
自然语言理解(NLU)
NLU 是要理解给定文本的含义。文本内每个单词的特性与结构需要被理解。在理解结构上,NLU 要理解自然语言中的以下几个歧义性:
接下来,通过使用词汇和语法规则,理解每个单词的含义。
然而,有些词有类似的含义(同义词),有些词有多重含义(多义词)。
自然语言生成(NLG)
NLG 是从结构化数据中以可读地方式自动生成文本的过程。自然语言生成的问题是难以处理。
自然语言生成可被分为三个阶段:
1. 文本规划:完成结构化数据中基础内容的规划。
2. 语句规划:从结构化数据中组合语句,来表达信息流。
3. 实现:产生语法通顺的语句来表达文本。
NLP 与文本挖掘(或文本分析)之间的不同
自然语言处理是理解给定文本的含义与结构的流程。
文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。
自然语言处理被用来理解给定文本数据的含义(语义),而文本挖掘被用来理解给定文本数据的结构(句法)。
例如,在「I found my wallet near the bank」一句中,NLP 的任务是理解句尾「bank」一词指代的是银行还是河边。
大数据中的 NLP
如今所有数据中的 80% 都可被用到,大数据来自于大公司、企业所存储的信息。例如,职员信息、公司采购、销售记录、经济业务以及公司、社交媒体的历史记录等。
尽管人类使用的语言对计算机而言是模糊的、非结构化的,但有了 NLP 的帮助,我们可以解析这些大型的非结构化数据中的模式,从而更好地理解里面包含的信息。
NLP 可使用大数据解决商业中的难题,比如零售、医疗、金融领域中的业务。
什么是聊天机器人?
聊天机器人或自动智能代理
聊天机器人的重要性
聊天机器人的工作机制
聊天机器人每次与用户交流时都能进行学习,使用机器学习回应信息库中的信息。
NLP 中为什么需要深度学习
深度学习的三项能力
在深度学习中,当然也要考虑其他的能力,比如可解释性、模块性、可迁移性、延迟、对抗稳定性、安全等。但以上是主要的几项能力。
NLP 中深度学习的常见任务
传统 NLP 和深度学习 NLP 的区别
日志分析与日志挖掘中的 NLP
什么是日志?
不同网络设备或硬件的时序信息集合表示日志。日志可直接存储在硬盘文档中,也可作为信息流传送到日志收集器。
日志提供维持、追踪硬件表现、参数调整、紧急事件、系统修复、应用和架构优化的过程。
什么是日志分析?
日志分析是从日志中提取信息的过程,分析信息中的句法和语义,解析应用环境,从而比较分析不同源的日志文档,进行异常检测、发现关联性。
什么是日志挖掘?
日志挖掘或日志知识发现是提取日志中模式和关联性的过程,从而挖掘知识,预测日志中的异常检测。
日志分析和日志挖掘中使用到的技术
下面介绍了完成日志分析的不同技术:
日志分析 & 日志挖掘中的 NLP
自然语言处理技术被普遍用于日志分析和日志挖掘。
词语切分、词干提取(stemming)、词形还原(lemmatization)、解析等不同技术被用来将日志信息转换成结构化的形式。
一旦日志以很好的形式组织起来,日志分析和日志挖掘就能提取信息中有用的信息和知识。
深度自然语言处理
自然语言处理是一个复杂的领域,处于人工智能、计算语言学和计算机科学的交叉领域。
从 NLP 开始
用户需要输入一个包含已写文本的文件;接着应该执行以下 NLP 步骤:
NLP 的其他关键应用领域
除了在大数据、日志挖掘及分析中的应用,NLP 还有一些其他主要应用领域。
尽管 NLP 不如大数据、机器学习听起来那么火,但我们每天都在使用它:
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。