首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NLP系列学习:潜在语义牵引

NLP系列学习:潜在语义牵引

作者头像
云时之间
发布于 2018-12-06 02:42:33
发布于 2018-12-06 02:42:33
5670
举报
文章被收录于专栏:云时之间云时之间

关于主题模型这一块是比较特殊的,这期间也给我带来了一些困惑,因为其中的一些算法和我们在机器学习中使用的算法还是很不同的,在这篇文章里,我想简单介绍下LSI(潜在语义牵引)

这个模型的作用是通过海量的文献找出词汇的关系.就跟警察抓嫌疑人一样,犯罪事件在这个区域里出现的多了,这片区域越有可能成为犯罪的重点辖区. 词汇也是这样,当一些词汇大量出现在一篇文章里时,我们可以认为这篇文章会倾向去成为某一种类型,而这些词之间也存在着语义相关性.

一:主题模型算法

我们使用的主题模型算法跟聚类差不多,但是细究起来还是有一些差距:

1:聚类模型计算的是数据样本之间的欧拉距离等.

2:主题模型是通过对文本隐含主题的建模,词特性聚类很难找出主题相关度.

找出主题的方法有一些是基于统计的方法,还有一些不是基于统计的方法,比如LSI

二:潜在语义索引概述

LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。关于其中的数学知识,我就不再赘述了,这里说一说她的降维过程:

1:把文档库表示为

的词-文档矩阵,词作为行,文档作为列.(m表示词向量在不同文档中出现的次数,n表示不同文档的个数),A表示为A = [α ij ],在此矩阵中,α ij为非负值 , 表示第 i 个词在第j 个文档中出现的频度。显然,A是稀疏矩阵.

2:利用SVD求A的正交因子的降秩矩阵,这其实就是关键所在,降维,SVD在我看来,最主要的作用在这里是将词和文档映射到一个语义空间,然后把文档和词表示为因子形式,这样既可以保留主要信息,又可以减少运算复杂度.

这当中K的取值挺关键,我看前人给出的经验是,K过小,则丢失信息就越多;K过大,信息虽然多,但可能有冗余且计算消耗大。K的选择也是值得研究的,不过一般取值为100-300,不绝对。

三:LSI的应用性

LSI在我看来最关键的还是设计K的取值,如果K取的很合适,可以把联系较为紧密的词语提出来,其实就是用降维做相关性计算.但是LSI现在并不是那么流行,也是有一些原因:

1:太慢

SVD计算太费劲了,特别是我们几十万的文本数据一块来,这样高维矩阵SVD分解基本是机器吃不消,然后现在用的TF-IDF只需要通过两个整数相乘就能计算出不同单词的重要性,岂不是更有效?尽管在某些程度上LSI有一些优势,但是在工业界似乎没多少人用.

2:K值选取

K值的选取太过于影响计算结果,直接使用LSI做单词相关度计算的并不多,一方面在于现在有一些灰常好用的同义词词典,另外相对无监督的学习大家还是更信任有监督的学习(分类)得到的结果。

3:LSI不能聚类

因为LSI 得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。所以聚类不行,但是该算法后续额变种包括LDA聚类是很有效的,因为LSI找的是特征子空间,聚类找的则是实例分组,

LSI 虽然能得到看起来貌似是聚类的结果,但其意义不见得是聚类所想得到的。

四:实验

代码整理ing~

后续附加

五:总结

对于LSI,我们在一些规模较小的问题上,使用LSI是很划算的,但是你想实打实的做主题模型,因为数据量太多了,还是老老实实用LDA这样的模型吧.

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.11.05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
文本主题模型之潜在语义索引(LSI)
    在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。
刘建平Pinard
2018/08/07
1.5K0
文本主题模型之潜在语义索引(LSI)
自然语言处理技术(NLP)在推荐系统中的应用
个性化推荐是大数据时代不可或缺的技术,在电商、信息分发、计算广告、互联网金融等领域都起着重要的作用。具体来讲,个性化推荐在流量高效利用、信息高效分发、提升用户体验、长尾物品挖掘等方面均起着核心作用。在推荐系统中经常需要处理各种文本类数据,例如商品描述、新闻资讯、用户留言等等。具体来讲,我们需要使用文本数据完成以下任务: 候选商品召回。候选商品召回是推荐流程的第一步,用来生成待推荐的物品集合。这部分的核心操作是根据各种不同的推荐算法来获取到对应的物品集合。而文本类数据就是很重要的一类召回算法,具有不依赖用户
CSDN技术头条
2018/02/13
3.8K0
自然语言处理技术(NLP)在推荐系统中的应用
主题建模技术介绍-机器学习模型的自然语言处理方法
主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。
程序你好
2020/12/31
4.2K0
主题建模技术介绍-机器学习模型的自然语言处理方法
文本主题模型之非负矩阵分解(NMF)
    在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题。这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解,但是计算量和处理速度则比LSI快,它是怎么做到的呢?
刘建平Pinard
2018/08/07
2.2K0
文本主题模型之非负矩阵分解(NMF)
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
图片链接: https://pixabay.com/en/golden-gate-bridge-women-back-1030999/
AI研习社
2018/09/25
9560
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
机器学习概念总结笔记(四)
作者:许敏 系列推荐 机器学习概念总结笔记(一) 机器学习概念总结笔记(二) 机器学习概念总结笔记(三) 21)KMeans 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域
serena
2017/10/09
2.2K0
机器学习概念总结笔记(四)
NLP 点滴 :文本相似度 (中)
肖力涛
2017/08/23
3.6K0
NLP 点滴 :文本相似度 (中)
EM算法求解pLSA主题模型
说到主题模型通常会想到LDA主题模型。确实,近些年出现的主题模型或多或少与LDA模型存在联系,但是今天我们要介绍的是比LDA还要早的pLSA主题模型。
触摸壹缕阳光
2020/03/17
8590
EM算法求解pLSA主题模型
百度NLP | Familia:开源的中文主题模型应用工具包
机器之心专栏 作者:百度NLP 本期百度NLP 专栏介绍了百度开源的中文主题模型应用工具包 Familia。在本文中,作者结合 Familia 汇总主题模型在工业界的一些典型应用案例,方便开发者按图索骥,找到适合自己任务的模型以及该模型的应用方式。 主题模型是文本挖掘的重要工具,近年来在学术界和工业界都获得了非常多的关注。虽然学术界的研究人员提出了多种多样的主题模型来适应不同的场景,这些工作主要集中在「建模」层面,即设计合理的模型来适配各色各样的数据,而指导主题模型在工业场景「落地」的资源和文
机器之心
2018/05/09
2.2K0
教你在Python中实现潜在语义分析(附代码)
你有没有去过那种运营良好的图书馆?我总是对图书馆馆员通过书名、内容或其他主题保持一切井井有条的方式印象深刻。但是如果你给他们数千本书,要求他们根据书的种类整理出来,他们很难在一天内完成这项任务,更不用说一小时!
数据派THU
2018/12/24
4.6K0
在Spark上用LDA计算文本主题模型
在新闻推荐中,由于新闻主要为文本的特性,基于内容的推荐(Content-based Recommendation)一直是主要的推荐策略。基于内容的策略主要思路是从文本提取出特征,然后利用特征向量化后的向量距离来计算文本间的相关度。这其中应用最广的当属分类(Category)相关和关键词(Keywords/Tag)相关,然而这两种策略却有很多无法覆盖的场景。首先,关键词无法解决同义词和一词多义的问题。比如下面两篇文章的关键词:
星回
2018/08/02
2.5K0
在Spark上用LDA计算文本主题模型
教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模
在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。
机器之心
2018/07/30
2K0
教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模
NLP专题:LSA浅层语义分析
在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。
数据饕餮
2019/06/14
1.8K0
NLP专题:LSA浅层语义分析
NLP关键词提取方法总结及实现
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx 一、关键词提取概述 关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。 从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。 1、无监督关键词提取方法 不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进
机器学习AI算法工程
2022/03/31
10.4K0
NLP关键词提取方法总结及实现
Kaggle知识点:文本相似度计算方法
文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。
Coggle数据科学
2021/02/23
3K0
Kaggle知识点:文本相似度计算方法
nlp 关键词提取_nlp信息抽取
关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
全栈程序员站长
2022/09/29
1.2K0
nlp 关键词提取_nlp信息抽取
文本挖掘与自然语言处理NLP学习路径:—基于R/PythonTF-IDF、LDA、LSTM及SVM模型跨领域分析
在大数据与人工智能高速发展的时代,文本数据作为非结构化信息的重要载体,其价值挖掘已成为数据科学领域的核心课题。作为数据科学家,我们曾面临从多源异构文本数据中提取关键洞察的挑战,由此开启了对文本挖掘技术体系的系统性探索。本专题内容改编自项目的技术总结报告,整合了NASA元数据主题建模、社交媒体情感分析、电商评论分类等典型场景的实践经验,通过R与Python双平台技术栈,展现TF-IDF、LDA、LSTM、SVM等模型的应用范式。(点击文末“阅读原文”获取完整智能体、代码、数据、文档)。
拓端
2025/06/26
2170
文本挖掘与自然语言处理NLP学习路径:—基于R/PythonTF-IDF、LDA、LSTM及SVM模型跨领域分析
【深度】Peacock:大规模主题模型及其在腾讯业务中的应用
如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该返回酒水或者水果类广告。可是你知道吗?“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理解这个隐含语义,就能展示丰胸或者美容广告——这样点击率一定很高。在广告、搜索和推荐中,最重要的问题之一就是理解用户兴趣以及页面、广告、商品等的隐含语义。 让机器能自动学习和理解人类语言中近百万种语义,以及从海量用户行为数据中归纳用户兴趣,是一个已经持续了20年的研究方向,称为主题建模(Latent Topic Modeling)。目前业界
机器学习AI算法工程
2018/03/12
3.6K0
【深度】Peacock:大规模主题模型及其在腾讯业务中的应用
【 文智背后的奥秘 】系列篇 :文本聚类系统
本文介绍了基于Spark的LDA主题模型在文本聚类分析中的应用,通过与其他常见聚类算法进行比较,展示了其在处理大规模文本数据时的效率和准确性。同时,文章还介绍了文智平台在支持多语言、处理多主题、提供可视化界面等方面的特点。
文智
2016/09/29
5.6K0
【 文智背后的奥秘 】系列篇 :文本聚类系统
入门 NLP 项目前,你必须掌握哪些理论知识?
今年一月开始,我一直在从事一个从非结构化的文本中提取信息的项目。在开始这个项目之前,我对自然语言处理(NLP)领域一无所知。当我刚开始研究这个领域时,我很快就找了一本名为「Python 自然语言处理」的书(图书查阅地址:https://www.nltk.org/book/)。这本书对于我来说过于理论化了,但其中的知识基本是正确的,因此它对我来说仍然是无价的资源。接下来,我发现了 Dipanjan Sarkar 编写的「Python 文本分析」(图书查阅地址:https://www.apress.com/gp/book/9781484243534),并从头到尾通读了此书。这本书真的太棒了,它教会了我入门 NLP 项目所需的所有技术技能。最近,此书的第二版(https://www.apress.com/gp/book/9781484243534)也面世了,对上个版本进行了大量的扩充。
AI科技评论
2019/08/15
6740
推荐阅读
相关推荐
文本主题模型之潜在语义索引(LSI)
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档