Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >淘宝的评论归纳是用什么方法做到的?

淘宝的评论归纳是用什么方法做到的?

作者头像
机器学习AI算法工程
发布于 2018-03-14 08:59:49
发布于 2018-03-14 08:59:49
2K0
举报

文章目录

  1. 1. 识别、抽取产品特征
  2. 2. 特征语意去重
  3. 3. 识别产品特征对应的观点词
  4. 4. 分析评论的情感及强度
  5. 5. 后记

越来越多的人选择在网上消费,并且越来越的证据表明商品的评论信息会影响到消费者的消费决定。评论挖掘的主要任务是从评论中了解到用户对产品的哪些功能、属性进行了怎样的评论,并抽取成简短有效的信息。

评论挖掘主要有以下几个子任务:

识别、抽取产品特征

产品特征分为显示特征和隐含特征。

  • 显示特征 显示特征是直接出现在产品的评论中,描述产品的性能或功能的名词或名词短语。
  • 隐含特征 隐含特征没有在语句中直接进行描述,需要对句子进行语义理解才能得到,提取隐含特征需要自然语言的完全理解技术 。 特征词满足以下三个条件之一: (1) 给定评论对象的一部分 (2) 给的评论对象的一个属性 (3) 给定评论对象的一个部分的一个属性 特征提取分为人工标记和自动提取两种方法。人工标记一般由领域专家来完成。 自动提取过程:对语料进行词性标注,提取其中的名词短语,利用关联规则挖掘出频繁项,在频繁项候选集上做密实度修剪和冗余修剪,去掉无用的短语和合并相似的短语。

特征语意去重

首先介绍一下什么是词向量和语言模型。 (1) 词向量就是用来将语言中的词进行数学化的一种方式。有了词向量之后就可以对词进行聚类、分类、计算相似度等等。 (2) 语言模型就是用来计算一个句子的概率的模型,简单来说就是判断一句话是不是正常人说出来的。常见的应用场景:机器翻译语音识别得到若干候选之后,可以利用语言模型挑一个尽量靠谱的结果。

特征词去重采用聚类的方法对特征词进行聚类,归属于同一类的即为同义词。其中判断词语的相似度,采用计算特征词的词向量,然后计算向量间的相似度(例如计算向量夹角)的方法。

关于同义词聚类,Google推出的Word2Vec是一个不错的工具,关于Word2Vec的介绍请参考之前的博文:自然语言处理之Word2Vec

http://blog.163.com/xh_ding/blog/static/1939032892014312102457581

识别产品特征对应的观点词

对评论语料进行词法和依存句法分析生成三元组: <Attribute, Subject, Value> Subject:产品 Attribute:特征 Value:特征观点

分析评论的情感及强度

把用户评论句子切分为只包含一个特征词的短句并将评论抽象概括为<Holder, Topic, Sentimentl>。 采用基于情感词典的方式计算短句的情感得分:

$$Score=\sum_{ w_i \in V} \frac{S_w}{dis(w_i, f)}$$

$w_i$ 代表句子中的情感词

V代表情感词典中情感词集合

$S_{w_i}$代表$w_i$在情感词典中的极性值

$f$代表该句子中的特征词

$dis(w_i, f)$代表在句子中情感词$w_i$与特征词f之间的距离,距离越远情感词$w_i$对特征词f的影响越小,因此赋予的权重也越小。

在此基础之上应用否定词、转折词规则以及基于上下文情感的连词规则和蕴含连词规则。最终计算得到短句的情感倾向得分。

后记

以上是针对中文的用户评论挖掘的一个大致粗略的过程。

在去年暑假的时候我们实验室为一家公司做了一个导购网站,其中用户评论挖掘这部分是一个特点,当时淘宝、京东等各大电商网站还没有或者刚刚开始注意到用户评论的这个点。我做的就是用户评论挖掘这一部分,主要是对每一件商品的每一条评论进行处理,最后得到每件商品的优缺点(以标签的方式呈现,算是短摘要)以及关于该商品的优缺点长摘要(摘要是根据每件商品下的评论得到的,较客观)。主要步骤是: 1、得到每件商品的所有评论。 2、对每条评论进行分词 3、对分词后的词语配合本地的词库进行聚类,形成语料库。这一步说的简单点就是将所有的同义词归为一类。比方说,价格 价位 价钱 售价归为价格这一类。 4、建立情感词,主要是形容词和副词的情感语料库。 5、根据情感词以及情感词位置判断分句的情感取向。 6、标记属性词和情感词的位置,为以后高亮显示做准备。

另外,我们还做了商品推荐、评论质量排序等功能。由于我们只是做了手机、平板电脑两种商品,所以较简单一些,其中一些可能还不够准确,如有不对的地方请指正,谢谢。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NLP概述和文本自动分类算法详解 | 公开课笔记
文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。
用户1737318
2019/11/19
1.9K0
NLP概述和文本自动分类算法详解 | 公开课笔记
课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例
新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。 近期,达观数据文本挖掘组负责人张健应邀在雷锋网AI研习社分享了一些NLP方面的知识和案例。 1 达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用
达观数据
2018/03/30
1.5K0
课堂总结 |  达观数据文本挖掘负责人分享文本分类方法和应用案例
深度学习在文本分类中的应用
近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法官,并取得了最终评测第四名的成绩(比赛的具体思路和代码参见github项目repo)。因此,本文总结了文本分类相关的深度学习模型、优化思路以及今后可以进行的一些工作。欢迎转载 1. 文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛。如: 垃圾邮件分类:二分类问
llhthinker
2018/01/24
3.3K0
基于文本挖掘和情感分析的物流客户满意度测算研究
摘 要: 为合理评价电商平台物流客户满意度情况,提出一种基于评论大数据的物流客户满意度测算方法。首先,以生鲜电商为研究对象爬取大量在线评论,进行分词等操作并基于TF-IDF算法得出生鲜电商物流满意度的关键因素及其权重,随后构建物流属性词向量模型,结合词语权重和其与物流关键因素之间的相似性,区分每句话中的物流属性,确定用户重点关注的物流属性。然后,构建情感分析模型对物流相关评论进行情感分析,计算用户对物流各属性的满意度情况,得到评论中不同物流属性的客户满意度情况。
用户9868602
2022/09/02
9590
基于文本挖掘和情感分析的物流客户满意度测算研究
详解自然语言处理5大语义分析技术及14类应用(建议收藏)
自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。
IT阅读排行榜
2020/08/07
5.9K0
详解自然语言处理5大语义分析技术及14类应用(建议收藏)
自然语言处理(四)神经网络语言模型及词向量
用句子SSS的概率p(S)p(S)p(S)来定量刻画句子。 统计语言模型是利用概率统计方法来学习参数p(wi∣w1…wi−1)p(w_i|w_1\dots w_{i-1})p(wi​∣w1​…wi−1​),神经网络语言模型则通过神经网络学习参数.
JNJYan
2019/01/18
1.1K2
干货分享|达观数据情感分析架构演进
在互联网日益发达的今天,许多消费者不管是通过线上电商网站或者线下门店购买商品后,包括买车、买手机等,都会到品牌官网或者一些专业网站甚至社交媒体去发表对产品的评价。对于买家来说,买前查看评论是了解一款产品真实情况的重要途径。对于商家而言,研读评论则是了解客户反馈、了解产品优势和潜在问题的第一手渠道。但对于评论数据的挖掘并不是简单到可以信手拈来,首先一个产品往往会有非常大量的评论,买家和卖家都不可能仔细阅读每一条评论从而得到对于一个产品的整体认知。 利用计算机,利用算法自动对评论进行分析挖掘,是解决这个问题的
达观数据
2018/03/30
1.6K0
深度学习知识抽取:属性词、品牌词、物品词
更具体的任务有,在解析一段工作经历长文本的时候,我们希望提取其中的动宾组合来表示该应聘者之于此段工作经历的主要工作内容。以“ 了解市场情况 , 进行一些项目的商务谈判 ”为例,HanLP分词器的结果为“ 了解市场情况 , 进行一些项目的商务谈判 ”,此时可以提取的粗动宾组合有“了解- 情况 ”和“ 进行 - 谈判 ”,而我们更希望得到更加完整且意义更加丰富的宾语,因此需要将“市场 情况”合并为“市场情况”,将“商务 谈判”合并为“商务谈判”。因此,我们需要一个能够准确提取名词短语(Noun Pharse)的序列标注模型来克服NP字典召回不足的问题。
机器学习AI算法工程
2019/10/28
2.5K0
深度学习知识抽取:属性词、品牌词、物品词
nlp 关键词提取_nlp信息抽取
关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
全栈程序员站长
2022/09/29
1.1K0
nlp 关键词提取_nlp信息抽取
达观数据NLP技术的应用实践和案例分析
达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。 篇章级应用有六个方面,已经有成熟的产品支持企业在不同方面的文本挖掘需求: 垃圾评论:精准识别广告、不文明用语及低质量文本。 黄反识别:准确定位文本中所含涉黄、涉政及反动内容。 标签提取:提取文本中的核心词语生成标签。 文章分类:依据预设分类体系对文本进行自动归类。 情感分析:准确分析用户透过文本表达出的情感倾向。 文章主题模型:抽取出文章的隐
机器学习AI算法工程
2018/03/15
1.6K0
达观数据NLP技术的应用实践和案例分析
自然语言处理(NLP)学习路线总结
NLP是自然语言处理(Natural Language Processing)的缩写,它是计算机科学领域中专注于研究如何使计算机理解、生成和处理人类语言的学科。NLP涉及的技术包括但不限于分词、词性标注、句法分析、语义分析、机器翻译、情感分析、信息抽取、文本生成等。通过NLP,计算机可以处理和分析大量的文本数据,帮助人们更好地理解和应用语言信息。
机器学习AI算法工程
2024/07/04
1.4K0
自然语言处理(NLP)学习路线总结
NLP 点滴 :文本相似度 (中)
肖力涛
2017/08/23
3.5K0
NLP 点滴 :文本相似度 (中)
词向量算法「建议收藏」
https://www.cnblogs.com/the-wolf-sky/articles/10192363.html
全栈程序员站长
2022/06/30
9450
词向量算法「建议收藏」
斯坦福大学深度学习与自然语言处理第二讲:词向量
本文来源:52nlp 斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊Richard Socher,以下为相关的课程笔记。 第二讲:简单的词向量表示:word2vec,Glove(Simple Word Vector representations: word2vec, GloVe) 推荐阅读材料: Paper1:[Distributed Representations
用户1737318
2018/06/05
7660
【算法】word2vec与doc2vec模型
小编邀请您,先思考: 1 word2vec算法原理是什么? 2 word2vec与doc2vec有什么差异? 3 如何做word2vec和doc2vec? 深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢?   引用三年前一位网友的话来讲:   “Steve Renals算了一下icassp录取文章题目中包含deep learning的数量,发现有44篇,而n
陆勤_数据人网
2018/03/20
2.3K0
【算法】word2vec与doc2vec模型
NLP学习路线总结
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。
全栈程序员站长
2022/11/10
1.4K0
NLP学习路线总结
【自然语言处理】——基于与训练模型的方法【复习篇1】
假设有一个词汇表:["cat", "run", "big"],以及它们的词性标签:["Noun", "Verb", "Adjective"]我们可以将词性信息嵌入到原始的独热编码中。
用户11315985
2025/06/01
1340
【自然语言处理】——基于与训练模型的方法【复习篇1】
语义分析的一些方法(中篇)
前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。
吾爱小白
2020/07/09
1.5K0
Word2vec理论基础——词向量
我们希望原始文本信息能够得到保留,例如国王和女王之间的关系和男人与女人之间的关系应是特别接近的,法国和巴黎之间关系与德国和巴黎的关系也是接近的。
Hsinyan
2022/06/19
5480
Word2vec理论基础——词向量
【数据挖掘】文本挖掘:语义分析的一些方法
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。 1 文本基本处理 在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及Term Weighting。 1.1 中文分词 拿到一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种: 基于字符串匹配的分词方法。此方法按照不同的扫描方式,逐个查找词库进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(即最短路径);总
陆勤_数据人网
2018/02/27
9.3K0
【数据挖掘】文本挖掘:语义分析的一些方法
推荐阅读
相关推荐
NLP概述和文本自动分类算法详解 | 公开课笔记
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档