Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爱数课实验 | 第五期-基于机器学习方法的商品评论情感判定

爱数课实验 | 第五期-基于机器学习方法的商品评论情感判定

作者头像
数据科学人工智能
发布于 2022-06-27 10:21:05
发布于 2022-06-27 10:21:05
1.5K10
代码可运行
举报
运行总次数:0
代码可运行

爱数课:idatacourse.cn

领域:消费

简介:商品评论可以帮助购买用户更加了解产品,做出更优的购买决策,也可以帮助商家获知商品的优缺点,获取消费者的喜好。本次实验我们将学习中文商品情感判定,通过构建高斯朴素贝叶斯模型和SVM模型和对商品评论进行分类。

数据:

./dataset/data.csv

./dataset/stopwords.txt

目录

任何行业,用户对产品的评价都显得尤为重要。用户在电商平台上面发表的产品评价中包含着用户的偏好信息,所以通过用户评论,可以得到用户的情感倾向以及对产品属性的偏好。

互联网的发展极大提高了每个人的参与度,人们可以通过网络购物或点外卖。在购买商品时,也会着重考虑其他用户的评价。对于用户来说,参考评论能够更全面的去了解商品,做出更优的购买决策;对于商家来说,通过用户的评论可以获知商品优缺点,进一步改良产品;对购物平台而言,通过分析用户评论可以进一步利用智能推荐系统向用户推荐他们更喜欢的产品,以增加用户的黏性,挖掘一些潜在的利润。

下图为某电商平台上针对某款手机的评论:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 载入必要库
import jieba
import numpy as np
import pandas as pd
import sklearn
import matplotlib
import matplotlib.pyplot as plt 
import pyecharts.options as opts
from pyecharts.charts import WordCloud
from pyecharts.charts import Bar
import re
#logging
import warnings
warnings.filterwarnings('ignore')

1. 数据读取

1.1 读取数据

某款手机的商品评论信息数据集,包含2个字段,共计8186个样本。数据集描述如下:

列名

说明

类型

示例

Comment

对该款手机的评论

String

客服特别不负责,明明备注了也不看,发错了东西。

Class

该评论的情感倾向: -1 ------ 差评 0 ------ 中评 1 ------ 好评

Int

-1

本实验所用数据集可在爱数科平台下载:http://idatascience.cn/dataset-detail?table_id=100936

使用Pandas库中的read_csv函数读取csv格式的数据集文件,结果会保存为一个DataFrame或Series对象,使用DataFrame或Series对象的head()方法查看前n行数据,默认为5。查看数据可以了解各个字段取值的具体情况,字段的名称等等,对数据有一个基础的了解。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#读入数据集
data = pd.read_csv('./dataset/data.csv')
data.head(10)

1.2 查看数据基本信息

使用shape()方法查看数据集的行数及列数,了解数据集的大小。使用info()方法打印DataFrame对象的摘要,包括列的数据类型dtype、名称以及有无缺失值,占用的内存等信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 数据集的大小
data.shape

(8186, 2)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 数据集的基本信息
data.info()

数据集大小为8186行,2列。从数据集的基本信息可以看到Comment列有缺失值,但缺失数量极少。在后续进行数据预处理时,需要考虑对缺失值进行删除。

2. 数据预处理

在中文文本分析和情感分析的工作中,数据预处理的内容主要是分词,去除停用词。英文分词比较简单,见到空格和标点符号就说明是一个词汇,而中文分词就是将一句话拆分成一些词语,在Python中有专门的中文分词库jieba库,使用jieba库的cut()函数对指定的文本内容进行分词。

2.1 去除缺失值

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 移除含有缺失值的行
data.dropna(axis=0,inplace=True)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#查看去除缺失值后的行和列
data.shape

(8185, 2)

2.2 分词

首先,我们去除Comment列文本中的标点符号、数字、字母。然后通过jieba库,对文本进行中文分词。只有经过分词处理后的文本数据集才可以进行下一步的向量化操作,满足输入模型的条件。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def remove_url(src):
    # 去除标点符号、数字、字母
    vTEXT = re.sub('[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】╮  ̄ ▽  ̄ ╭\\~⊙%;①():《》?“”‘’![\\]^_`{|}~\s]+', "", src)
    return vTEXT
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

cutted = []
for row in data.values:
        text = remove_url(str(row[0])) #去除文本中的标点符号、数字、字母
        raw_words = (' '.join(jieba.cut(text)))#分词,并用空格进行分隔
        cutted.append(raw_words)

cutted_array = np.array(cutted)

# 生成新数据文件,Comment字段为分词后的内容
data_cutted = pd.DataFrame({
    'Comment': cutted_array,
    'Class': data['Class']
})
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data_cutted.head()#查看分词后的数据集

data_cutted为进行分词之后的数据集,可以看到每条评论已经进行了分词。

2.3 查看关键词

此步骤我们先读取停用词文件,查看前100个停用词。其次使用jieba.analyse中的set_stop_words函数设置停用词。使用jieba.analyse中的extract_tags函数,提取句子中的关键词,显示好评、中评、差评中前30个关键词,可以帮助我们对各类评论有更好的理解,更直观的显示各类评论用户的情感倾向。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open('./dataset/stopwords.txt', 'r', encoding='utf-8') as f:#读停用词表
    stopwords = [item.strip() for item in f] #通过列表推导式的方式获取所有停用词
    
for i in stopwords[:100]:#读前100个停用词
    print(i,end='')
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#设定停用词文件,在统计关键词的时候,过滤停用词
import jieba.analyse
jieba.analyse.set_stop_words('./dataset/stopwords.txt')

设置停用词之后,分别提取各类评论的关键词。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data_cutted['Comment'][data_cutted['Class'] == 1]
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 好评关键词
keywords_pos = jieba.analyse.extract_tags(''.join(data_cutted['Comment'][data_cutted['Class'] == 1]),withWeight = True,topK=30)
for item in keywords_pos:
    print(item[0],end=' ')

#中评关键词 keywords_med = jieba.analyse.extract_tags(''.join(data_cutted['Comment'][data_cutted['Class'] == 0]),withWeight = True,topK=30) for item in keywords_med: print(item[0],end=' ')

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#差评关键词
keywords_neg = jieba.analyse.extract_tags(''.join(data_cutted['Comment'][data_cutted['Class'] == -1]),withWeight = True,topK=30)

for item in keywords_neg:
    print (item[0],end=' ')

3. 可视化分析

在本环节中,我们将通过Python中的绘图库Pyecharts,利用一系列可视化的手段,通过绘制柱状图的方式展示各类评论的取值分布,通过绘制词云图的方式展示好评、中评、差评的关键词。

3.1 好评、中评、差评数量柱状图

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data_cutted['Class'].value_counts()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

# 不同类别数据记录的统计
x_label = ['好评','差评','中评']
class_num = (
    Bar()
    #设置x轴的值
    .add_xaxis(x_label) 
    #设置y轴数据
    .add_yaxis("",data_cutted['Class'].value_counts().to_list(),color=['#4c8dae'])
    #设置title
    .set_global_opts(title_opts=opts.TitleOpts(title="好评、中评、差评数量柱状图"))
)
class_num.render_notebook()

从柱状图可以看出好评,共3042人,差评,共2657人,中评,共2486人。好评人数最多,中评人数最少。数据集中好评、中评、差评的人数相差并不大,取值分布较为均衡。

3.2 好评关键词词云图

对好评中的关键词通过绘制词云图的方式进行展示,查看好评用户对商品的评价。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wordcloud_pos = (
        WordCloud()
        #data_pair:要绘制词云图的数据
        .add(series_name="", data_pair=keywords_pos[:], word_size_range=[10, 66])
        .set_global_opts(
            title_opts=opts.TitleOpts(
                #设置词云图标题和标题字号
                title="好评关键词词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
            ),
            tooltip_opts=opts.TooltipOpts(is_show=True))     
)
wordcloud_pos.render_notebook()

好评用户指出商品是正品、有赠品、很漂亮、手机运行流畅、快递速度较快等。总体来说好评用户感觉商品不错,对商品很满意,很喜欢。其中好评用户最常提到的是感觉商品不错和商品是正品。

3.3 中评关键词词云图

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wordcloud_med = (
        WordCloud()
        #data_pair:要绘制词云图的数据
        .add(series_name="", data_pair=keywords_med[:], word_size_range=[10, 66])
        .set_global_opts(
            title_opts=opts.TitleOpts(
            #设置词云图标题和标题字号
            title="中评关键词词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
            ),
            tooltip_opts=opts.TooltipOpts(is_show=True))     
)
wordcloud_med.render_notebook()

总体来说中评用户对商品的评价有好有坏,觉得商品不错,但同时指出商品存在发热等问题。

3.4 差评关键词词云图

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wordcloud_neg = (
        WordCloud()
        #data_pair:要绘制词云图的数据
        .add(series_name="", data_pair=keywords_neg[:], word_size_range=[10, 66])
        .set_global_opts(
            title_opts=opts.TitleOpts(
                #设置词云图标题和标题字号
                title="差评关键词词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
            ),
            tooltip_opts=opts.TooltipOpts(is_show=True))     
)
wordcloud_neg.render_notebook()

差评用户对商品售后服务,以及退换货服务等感到不满意。同时也提到了充电等问题。

通过分析用户的评论,我们可以发现,对于网购来说,商品本身的质量是非常关键的,对于手机来说人们关注手机的发热问题、流畅性、以及充电问题等,但同时售后服务,快递速度等也是人们关心的重要问题。

4. 文本向量化

经过分词之后的文本数据集要先进行向量化之后才能输入到分类模型中进行运算。TF-IDF算法是常用的文本向量化算法。

TF-IDFTerm Frequency-Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TFIDFTF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

(分母加1,为了避免分母为0)

我们使用sklearn库中的TfidfVectorizer实现tf-idf文本向量化。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 实现向量化方法
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words = stopwords,max_df=2000,min_df=6)

#将文本向量化后的数据赋给data_transform
data_transform = vectorizer.fit_transform(data_cutted['Comment'].values.tolist()) 
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#文本的词汇表
vectorizer.get_feature_names()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#调用toarray()方法查看文本向量化后的数据
data_transform.toarray()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data_transform.shape

(8185, 2029)

5. 高斯朴素贝叶斯模型

5.1 数据集划分

使用sklearn.model_selection模块的train_test_split()函数划分训练集和测试集。训练集:80%;测试集:20%。训练集用于训练模型,测试集用于评估模型性能。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.model_selection import train_test_split #数据集划分

X_train, X_test, y_train, y_test = train_test_split(data_transform, data_cutted['Class'], 
                                                   random_state=10,test_size=0.2)

5.2 构建高斯朴素贝叶斯模型

sklearn.naive_bayes中导入GaussianNB类,使用GaussianNB类初始化一个模型对象,命名为gnb,对gnb调用fit方法,带入训练集X_train,y_train进行训练。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.naive_bayes import GaussianNB
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gnb = GaussianNB()
gnb_model = gnb.fit(X_train.toarray(),y_train)

5.3 高斯朴素贝叶斯模型评估

训练高斯朴素贝叶斯模型后,可以使用模型在测试集X_test上作出预测。从sklearn.metrics中导入classification_report分类报告用于模型评估,可以通过分类报告查看模型对于各类别的分类精确率、召回率、f1-score等。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.metrics import classification_report
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gnb_prelabel = gnb_model.predict(X_test.toarray())

print(classification_report(y_true=y_test,y_pred=gnb_prelabel))

,全部预测为正类的样本中被预测正确的比例

,实际为正类的样本中被预测正确的比例

从分类报告来看,差评的精确率为0.67,召回率为0.48,中评的精确率为0.52,召回率为0.39。好评的精确率为0.62,召回率为0.90。模型最终的准确率为0.61。

6. SVM模型构建

6.1 构建SVM模型

sklearn.svm中导入SVC类,使用SVC类初始化一个模型对象,命名为svc,对svc调用fit方法,带入训练集X_trainy_train进行训练。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.svm import SVC

#设置kernel为‘rbf’高斯核,C=1
svc = SVC(kernel='rbf', C=1)
svc_model = svc.fit(X_train,y_train) 

训练模型后,可以使用模型在测试集X_test上作出预测。通过分类报告查看模型对于各类别的分类精确率、召回率、f1-score等。

6.2 SVM模型评估

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
svc_prelabel = svc_model.predict(X_test)
print(classification_report(y_true=y_test,y_pred=svc_prelabel))

从分类报告来看,差评的精确率为0.71,召回率为0.74,中评的精确率为0.62,召回率为0.57。好评的精确率为0.85,召回率为0.86。模型最终的准确率为0.74。从分类报告可以看出对于中评的分类效果较差。是由于人在评论时,除非有问题否则一般都会打好评,如果打了中评说明对产品有不满意之处,在情感的表达上就会趋向于负向情感,同时评论具有很大主观性,很多中评会将其归为差评,但数据集中却认为是中评。因此,将一条评论分类为好评、中评、差评是不够客观,中评与差评之间的边界很模糊,因此识别率较低。

通过将SVM模型与构建的高斯朴素贝叶斯模型分类结果比较,可以看出SVM在分类的精确率、召回率,以及模型的准确率上都优于高斯朴素贝叶斯模型。因此情感分析更推荐SVM模型。

爱数课(iDataCourse)是一个面向院校的大数据人工智能课程和资源平台。平台提供权威的课程资源、数据资源、案例实验资源,助力院校大数据和人工智能专业建设,课程建设和师资能力建设。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
作者大大您好!我想问一下,这个数据集在哪下载呀?可以分享一下吗?非常感谢
作者大大您好!我想问一下,这个数据集在哪下载呀?可以分享一下吗?非常感谢
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
爱数课实验 | 中文商品评论情感判定
简介:商品评论可以帮助购买用户更加了解产品,做出更优的购买决策,也可以帮助商家获知商品的优缺点,获取消费者的喜好。本次实验我们将学习中文商品情感判定,通过构建SVM模型和高斯朴素贝叶斯模型对商品评论进行分类。
数据科学人工智能
2022/04/01
7571
爱数课实验 | 中文商品评论情感判定
自然语言处理:网购商品评论情感判定
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。
不脱发的程序猿
2021/05/08
1.2K0
自然语言处理:网购商品评论情感判定
Python告诉你:李子柒的螺蛳粉到底有多火?
【导语】:今天我们聊聊火遍全网的螺蛳粉,Python技术部分可以直接看第二部分。公众号后台,回复关键字“螺蛳粉”获取完整数据。
CDA数据分析师
2020/04/08
1.1K0
Python告诉你:李子柒的螺蛳粉到底有多火?
基于自然语言处理的垃圾短信识别系统
本项目旨在利用自然语言处理(NLP)技术,开发一个高效的垃圾短信识别系统。通过分词、停用词处理、情感分析和机器学习模型,实现对垃圾短信的自动分类和识别,提高短信过滤的准确性和效率。
LucianaiB
2025/01/25
2150
基于自然语言处理的垃圾短信识别系统
【爬虫+数据清洗+可视化】“淄博烧烤”热评Python舆情分析大屏
自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。
马哥python说
2024/04/06
6560
【爬虫+数据清洗+可视化】“淄博烧烤”热评Python舆情分析大屏
我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。 “工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍
CDA数据分析师
2018/02/11
1.1K0
我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火
使用pyecharts绘制词云图-淘宝商品评论展示
词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。
派大星的数据屋
2022/04/03
9310
使用pyecharts绘制词云图-淘宝商品评论展示
【NLP自然语言处理】文本的数据分析------迅速掌握常用的文本数据分析方法~
小言从不摸鱼
2024/09/10
2050
【NLP自然语言处理】文本的数据分析------迅速掌握常用的文本数据分析方法~
常用机器学习代码汇总
皮大大
2023/08/25
4500
实践Twitter评论情感分析(数据集及代码)
自然语言处理是当今十分热门的数据科学研究项目。情感分析则是自然语言处理中一个很常见的实践。例如可以借助民意测试来构建完整的市场策略,该领域已经极大的改变了当前的商业运行模式,所以每一个数据科学家都应该熟悉该领域的内容。
机器学习之禅
2022/07/11
2.6K1
实践Twitter评论情感分析(数据集及代码)
Python带你看不一样的《青春有你2》小姐姐之评论内容可视化
详细介绍和用法可以去github看:https://github.com/fxsjy/jieba,这里不多做介绍,只介绍本次用到的
极简小课
2022/06/27
6020
Python带你看不一样的《青春有你2》小姐姐之评论内容可视化
京东商品评论情感分析:数据采集与词向量构造方法
最近实习期间在做一个对新闻文本情感分析的项目。在此,用京东的商品评论练手,从数据采集到模型实现完整地写一遍,以备未来回顾所需。事实上,我采用的方法并不困难,甚至有点naive,所以权且作为练手吧。 本文代码在公众号 datadw 里 回复 京东 即可获取。 数据采集 在这里为了避免人工标注的麻烦,使用的是京东iPad的用户评论 https://item.jd.com/4675696.html#none 事实上,NLP情感分析中最花时间的就是人工标注。 仔细查看调试台可以很容易地发现商品的评论信息都是用
机器学习AI算法工程
2018/03/15
2K0
京东商品评论情感分析:数据采集与词向量构造方法
用机器学习怎样鉴别不可描述的网站
前两天教师节,人工智能头条的某个精神股东粉群里,大家纷纷向当年为我们启蒙、给我们带来快乐的老师们表达感激之情。
用户1737318
2018/09/28
1.8K0
用机器学习怎样鉴别不可描述的网站
Python人工智能 | 二十一.CNN和Word2Vec中文文本分类详解及与机器学习分类对比
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了Keras实现RNN和LSTM的文本分类算法,并与传统的机器学习分类算法进行对比实验。这篇文章我们将继续巩固文本分类知识,主要讲解CNN实现中文文本分类的过程,并与贝叶斯、决策树、逻辑回归、随机森林、KNN、SVM等分类算法进行对比。注意,本文以代码为主,文本分类叙述及算法原理推荐阅读前面的文章。基础性文章,希望对您喜欢~
Eastmount
2023/02/28
3.4K0
Python人工智能 | 二十一.CNN和Word2Vec中文文本分类详解及与机器学习分类对比
Python电商数据分析案例|如何分析竞争对手?
波士顿矩阵又称市场增长率-相对市场份额矩阵、波士顿咨询集团法、四象限分析法、产品系列结构管理法等。
数据STUDIO
2021/08/13
2.5K0
Python有趣|中文文本情感分析
前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下:
罗罗攀
2019/04/09
2.7K0
Python有趣|中文文本情感分析
电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个商品的各方面的态度和情感倾向,以及客户注重商品的哪些属性,商品的
小莹莹
2018/04/24
3.9K0
电商评论情感分析
基于HAI应用,从零开始的NLP处理实践指南
在社交媒体刷屏的评论区里,人工智能如何瞬间识别出愤怒的吐槽与真诚的赞美?购物平台为何能自动将"质量太差"归类为差评,把"物超所值"标记为好评?这背后正是自然语言处理(NLP)技术在发挥作用。本文中,我们将以情感分析为切入点,用举例和比喻的方式方法,带您亲历一个NLP项目的完整生命周期。你无需专业背景,只需跟着操作步骤,即可亲手打造出能理解人类情感的智能程序。
不惑
2025/03/19
3140
基于HAI应用,从零开始的NLP处理实践指南
轻松搞懂Word2vec / FastText+BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention实现中英文情感分类
本人在大三期间做了一个关于“疫苗接种”主题的舆情分析,主要涉及的技术有:爬虫(微博和知乎评论)、数据清洗、文本特征提取、建立模型(SVM、BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention)、文本摘要等。
全栈程序员站长
2022/09/13
1.3K1
轻松搞懂Word2vec / FastText+BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention实现中英文情感分类
再也不用手动复制粘贴收集Taptap游戏评论了,还可以制作好看的热词词云图~
同学们,猜猜以下6款游戏分别是TapTap上面的哪6款产品呢??欢迎在留言区留言哦~ 【我们会在接下来教大家怎么一键生成大家喜爱的游戏产品评论热词词云】
可以叫我才哥
2021/08/05
1.4K0
推荐阅读
相关推荐
爱数课实验 | 中文商品评论情感判定
更多 >
LV.1
北京博雅数智科技有限公司创始人、CEO
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档