首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >词袋模型(Bow)

词袋模型(Bow)

作者头像
Steve Wang
发布2023-10-12 09:35:37
发布2023-10-12 09:35:37
5690
举报
文章被收录于专栏:从流域到海域从流域到海域
词袋模型(Bag of words, Bow)

词袋模型顾名思义,即将文本看作是装满了词的袋子,它不考虑文本中词与词的上下文关系,仅仅考虑所有词的权重,而权重和词频有关系。

应用词袋模型时,首先进行分词,分词之后统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征(词频特征)。如果将各个文本样本的这些词与对应的词频放在一起即向量化,可以组成一个词频矩阵。向量化之后一般会采用TF-IDF进行特征的权重修正,然后再进行标准化,经过一系列操作之后,就可以将数据带入机器学习模型中计算。

词袋模型的三个主要步骤:

  1. 分词(tokenizing)
  2. 统计修订词特征(counting)
  3. 标准化(normalizing)

词袋模型有很大的局限性,因为它仅仅考虑了词频,没有考虑上下文信息,因此会丢失大量语义。

词袋模型统计词频,可以使用sktlearn中的CountVectorizer。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 词袋模型(Bag of words, Bow)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档