腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PySpark
1.6
中有
没有
更
有效
的
方式
来
实现
余弦
相似
度
?
、
我正在尝试计算用户表中给定
的
user_id和另一个带有电影
的
表之间
的
余弦
相似
度
,以便排序出最
相似
的电影
来
推荐。
余弦
相似
度
:= dot(a,b) / (norm(a) * norm(b))或dot(a,b)/sqrt((dot(a)*dot(b)) df = self.given_user.crossJoin(self.movies_dfmovieId', 'd
浏览 18
提问于2020-08-31
得票数 0
回答已采纳
1
回答
项目间
的
余弦
相似
性(购买数据)与标准化
、
、
、
我使用表示产品用户购买行为
的
IndexedRowMatrix,为了构建产品推荐,我使用
余弦
相似
度
来
计算产品之间
的
相似
性。
PySpark
提供了一个名为columnSimilarities()
的
函数。我
的
问题是,
在
使用columnSimilarities()之前,是否需要规范每个产品
的
向量?我读过关于归一化和
余弦
相似
的文章,并且理解
余弦</e
浏览 0
提问于2018-11-19
得票数 3
4
回答
在
Apache Spark/
PySpark
中有
没有
实现
带
余弦
距离
的
Kmeans?
、
、
、
在
Apache Spark中,有
没有
将
余弦
距离
的
KMeans应用于Tf-IDF处理
的
数据帧
的
工作
实现
? Spark,当然
在
ml库
中有
欧几里得距离
实现
,但对于任何其他距离度量都不是这样。
浏览 0
提问于2017-06-26
得票数 1
1
回答
大矩阵除法
的
csr稀疏矩阵并行化
、
、
、
、
我正在计算两个大向量集之间
的
余弦
相似
度
(具有相同
的
特征)。每一组向量都表示为一个正向CSR稀疏矩阵,A和B。I想要计算A^T,它不会是稀疏
的
。但是,我只需要跟踪超过某个阈值
的
值,例如0.8。我正试图用普通
的
RDDs
在
Pyspark
中
实现
这一点,并使用快速向量操作
来
实现
对CSR矩阵
的
操作。 A和B
的
行是标准化
的
,
浏览 2
提问于2019-05-13
得票数 2
1
回答
基于关键字数量
的
文档与其他文档相关
的
概率
、
如果用户搜索单词"Computer“,并且我想显示基于关键字"Computer”
的
最相关
的
文档。我
的
算法根据关键词
在
文档中出现
的
次数来选择最相关
的
文档。唯一
的
问题是文档X有10个单词,"Computer“出现两次,而文档Y有1000个单词,"Computer”出现100次。从文档中
的
字数来看,说文档Y比文档X
更
相关是不正确
的
。如何对此进行规范化,以获得最准确
的
浏览 8
提问于2016-01-09
得票数 0
1
回答
余弦
相似
空间中
的
数
我希望将某个范围内
的
实数表示为向量空间,这样越接近
的
数字
在
向量空间中也越接近,接近程度可以用
余弦
距离
来
衡量。 例如,
在
0-100之间,9和10
的
余弦
相似
度
应接近1,9和100
的
余弦
相似
度
应接近-1。如何
实现
这样
的
映射呢?我正在考虑尝试一个神经网络编码器,但有
没有
其他方法
来
<e
浏览 0
提问于2017-08-12
得票数 0
1
回答
用于稀疏矩阵计算
的
枕木还是熊猫?
、
、
、
我必须计算稀疏矩阵中向量之间
的
大量
相似
计算。当前用于此任务
的
最佳工具scipy-sparse或pandas是什么?
浏览 5
提问于2013-10-04
得票数 2
1
回答
如何计算多类型数据
的
余弦
相似
度
?
、
、
我在数据库
中有
记录(行),并且我想标识类似的记录。我有一个使用
余弦
相似
度
的
约束。如果变量(属性、列)
的
类型不同,并以以下形式出现:如何进行矢量化以应用
余弦
相似
度
?对于字符串,我可以使用简单
的
tf-idf。但是对于数字和布尔值呢?如何将这些结合起来呢?我
的
想法是向量应该是1+1+1+20长度。但是,仅仅将记录
浏览 5
提问于2013-03-20
得票数 1
2
回答
修正
的
余弦
相似
效率
、
、
、
、
问题所在 我试图计算两个数组之间
的
余弦
相似
度
,但基本公式略有变化。也就是说,我只关心与“引用”数组重叠
的
组件。例如,如果我们要计算以下两个数组之间
的
余弦
相似
度
: A = [1 0 1] B = [1 1 0] [0 1 1] [0 1 1] 假设B是引用数组。:有
没有
一种方法可以
在
不显著降低性能
的
情况下引入这种修改(与sklearn.metrics.
浏览 28
提问于2019-10-15
得票数 0
回答已采纳
1
回答
仅对于匹配
的
文档,与Lucene
的
余弦
相似
性
、
、
、
这是正确
的
吗? 如果您确实需要文档之间
的
余弦
相似
性,
浏览 5
提问于2015-09-07
得票数 1
回答已采纳
1
回答
使用scipy
的
各种稀疏矩阵乘积
的
性能
、
、
、
我想尝试以下方法:虽然fisrt方法利用了快速向量化和内建
余弦
相似
度
方法,但它对于大型矩阵
的
内存性能较差(因为您必须转换为密集形式)。第二种方法也有较差
的
内存性能
浏览 2
提问于2018-12-10
得票数 1
6
回答
Python: tf-idf-cosine:查找文档
相似
性
、
、
、
、
我正在学习 & 上提供
的
一个教程。不幸
的
是,作者
没有
时间进行最后一节,它涉及到使用
余弦
相似
度
来
实际找出两个文档之间
的
距离。我
在
的
以下链接
的
帮助下遵循了文章中
的
示例,其中包含了上面链接中提到
的
代码(只是为了让生活
更
容易) from sklearn.feature_extraction.text import CountVectorizer0
浏览 4
提问于2012-08-25
得票数 103
回答已采纳
1
回答
从两个单独
的
列表中提取每一行以求
余弦
相似
度
、
、
、
我
在
Python方面不是很有经验,但我正在为我正在做
的
项目使用它。该项目涉及到通过文本处理(清理)
来
度量不同文本
的
相似
性,然后最终
实现
余弦
相似
度
、jaccard
相似
度
和tf。我看到了很多关于google和堆栈溢出
的
有用信息,但是如果还有其他
的
链接/引用可以帮助我的话,那就太好了。 我试图
在
两个不同
的
文本文件中计算每条推
浏览 1
提问于2015-04-02
得票数 1
回答已采纳
1
回答
两个火花源数据帧
的
余弦
相似
度
、
、
、
我有一个
PySpark
DataFrame,df1,它看起来像:12 .17.08 CustomerID CustomerValue CustomerValue 18 .86 .09 我想要取两个数据帧
的
余弦</em
浏览 2
提问于2018-09-28
得票数 1
2
回答
如何在spark mllib中进行基于项目的推荐?
、
、
、
在
Mahout中,支持使用API方法进行基于项目的推荐:但是
在
Spark Mllib中,看起来ALS内部
的
API可以获取推荐
的
产品,但userid必须通过以下
方式
提供:有
没有
一种方法可以根据
浏览 1
提问于2014-12-18
得票数 8
1
回答
使用nlp
在
大型语料库中回答自定义问题
假设我
在
一家公司
的
年报
中有
一个语料库,显示了他们4个行业
的
收入数据:汽车、半导体、绿色能源和医疗保健。对于人类来说,找到一个特定行业
的
收入数据并不难。如果我使用NLP将其自动化,这样我就不必阅读它,那么NLP是否可能将正确
的
收入数据与一个特定
的
行业相匹配? 我使用NLP进行情感分析、主题建模和文本生成。但这些似乎都与上面的应用程序无关。
浏览 1
提问于2020-04-10
得票数 0
1
回答
如何引入一个损失得到两个
相似
的矩阵
、
、
、
、
我正在训练一个神经网络,我希望两个矩阵是
相似
的(协方差矩阵)。我天真的做法是使用基于差异
的
损失,如L1损失。但这也迫使矩阵变小,这不是我想要
的
。非常感谢!
浏览 0
提问于2021-01-22
得票数 0
回答已采纳
2
回答
如何使用neo4j创建具有词向量
的
词汇表图?
、
、
、
、
其目的是根据词汇
相似
度
来
查询词汇图中最接近
的
单词。我们如何在neo4j上
实现
这一点?假设词汇表由以下内容组成:Wrong ProductProduct Replacement
在
一个单一
的
查询中,我应该能够发现“可负担
的
产品”与“产品价格”
的
关系比任何其他产品都
更
密切。请注意,我正在将单词嵌入到图表中,
浏览 13
提问于2020-05-16
得票数 1
1
回答
冷启动推荐方法及算法
、
、
、
我们正在为我们全新
的
学习管理系统建立推荐系统.有一堆用户和项目(学习模块)
在
板上,但
没有
评级-典型
的
冷启动问题。问题:
实现
基于项目的
相似
度</
浏览 5
提问于2015-08-25
得票数 1
5
回答
使用k-means进行文档聚类,聚类应该基于
余弦
相似
度
还是基于术语向量?
、
、
、
、
将TF-IDF归一化为固定长度
的
向量第7步:向量空间模型-
余弦
相似
度
我能找到
的
唯一示例是,将输入查询与每个文档进行比较,找出
相似
度
。如果
没有
输入查询(这不是一个信息检索系统),我要将语料库中
的
每个文档与语料库中
的
每个其他文档(每对文档)进行比较吗?我找不到任何应用于整个文档集合
的
余弦
相似
度
的
浏览 4
提问于2015-05-11
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习基础:相似度和距离度量究竟是什么
循环神经网络(三)——词嵌入学习与余弦相似度
NLP中的嵌入和距离度量
简单解释推荐系统的相似度及算法
大数据Mahout中相似度的几种算法介绍,内含Mahout相关资料
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券