首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

电商平台什么化妆品最多?

导语

简单介绍一下背景,我们想从电商平台的商品名称中,找到一些可能影响销量的关键字。所以先要对这些名称进行关键字的识别,再关联相关销量数据。

主要内容如下:

R语言链接Postgre数据库(公司用这个数据库)

R结巴关键字识别功能

词频统计和词云

下面先分段说明一下各个部分的内容:

先加载需要的库,用途都在注释里面了。

第一部分:R语言链接Postgre数据库

先配置好数据库类型和账号链接信息

dbConnect配置数据库类型

dbSendQuery配置账号信息

dbSendQuery 进行数据查询

fetch 将查询结果放进dataframe,但是函数里面具体内容没有太仔细研究,有兴趣的同学可以自己去查查

这个要注意一下,因为数据库编码和R的编码不同,直接查看df的结果中文是乱码,所以要专门转一次码

另外,由于数据库读取的内容,默认是因子型,对于后面的处理有影响,所以要先处理成字符型。如果是数值型的,还不能从因子直接转化为因子型,需要专程字符,再转数字。

第二部分:R结巴关键字识别功能

JiebaR的分词模式函数worker有很多种不同的模式(type参数)比如hmm隐马尔科夫模式、fullseg全模式等等,有兴趣大家可以去查相关资料。这里我主要用的是keywords,keywords模式,可以自动识别出一些词库里面没有关键字,用于识别新的品牌或者名词很有用。但是在python的jieba库里面,没有这么多模式可以选。这也是为什么这次我用R的原因。

jiebaR有一个特殊的符号

另外,直接用keywords分词,每个词会有一个tfidf值,后续暂时用不到,就写了一个renames的小函数,把这个数值去掉。

正式的分词过程

gsub函数,去掉商品名称里面的符号、英文字母和数字。

两个lapply进行分词和去掉tfidf值

第三部分:词频统计和词云

Lapply之后会变成列表,需要解除list之后才能统计词频。统计词频用到stringr包和data.table包。另外jiebaR也有一个统计词频的函数,下次有空在研究吧。

最后是词云图,用wordcloud2包,参数就不详细说明了。有兴趣可以自己研究啦

直接画出来的结果就是下面的情况了,某电商平台的名字就不方便出现了。

本来还想把关键字和销量关联起来,但是还没成功,再研究研究看,成功了再分享给大家吧。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190212G04H6000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券