腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
PySpark
计算
Jaccard
距离
时
,
对
的
数量
少于
应
有的
数量
、
、
、
、
我正在尝试用SparseVectors形式
的
属性来
计算
某些in之间
的
Jaccard
距离
。from
pyspark
.ml.feature import MinHashLSHfrom
pyspark
.sql.functions当我
计算
Jaccard
并写下数据
时
,我遗漏了很多id
对
。数据中总共有45k个身份,因
浏览 104
提问于2021-01-16
得票数 1
1
回答
Jaccard
距离
的
轮廓得分
、
、
我们需要对一组数据运行欧几里德聚类,然后在另一组数据上运行
Jaccard
。我们需要探索几个不同
的
模型来评估集群
的
数量
,对于欧几里德来说,
使用
sklearn.metrics.silhouette_score是非常直接
的
,但这并没有给出
使用
Jaccard
距离
的
选择。因此,我想知道是否有人知道如何
计算
Jaccard
距离
?我设法为彼此之间
的
所有
距
浏览 3
提问于2020-03-15
得票数 1
1
回答
使用
Spark (Java)实现min散列LSH
、
、
这是相当长
的
时间,我对此感到抱歉。+----+---------+-------------------------+另一方面,model.approxSimilarityJoin(...)要求我们连接两个数据集,而我只有一个有4个
浏览 7
提问于2018-02-05
得票数 0
1
回答
哪种聚类算法适用于此任务?
、
如下所示: [2,3], [9,8], [7,9,8], ...其中数据没有固定
的
维度当K=2
时
,应将前3个元素聚为一组,并将其他4个元素聚为一组。 我理解k-means算法,但问题是它
的
距离
计算
不适合我
的
情况。我
使用
Jaccard
距离
来表示每两个元素
的
距离
,因为它们
的
浏览 17
提问于2017-03-04
得票数 0
回答已采纳
3
回答
基于
距离
矩阵
的
词聚类
、
、
、
我
的
目标是根据单词与文本文档语料库
的
相似度
对
单词进行聚类。我已经
计算
了每对单词之间
的
Jaccard
相似度。换句话说,我有一个可用
的
稀疏
距离
矩阵。有没有人能给我介绍一些以
距离
矩阵作为输入
的
聚类算法(可能还有它
的
Python库)?我事先也不知道集群
的
数量
。我只想
对
这些单词进行聚类,并获得哪些单词聚在一起。
浏览 0
提问于2013-04-27
得票数 24
1
回答
使用
散列
计算
图像之间
的
相似度以检测近似重复项
、
假设我有一个庞大
的
SQL数据库,索引图像文件和文件本身。一些文件可能被索引两次或更多,一些文件可能有一个损坏
的
副本或更新
的
版本与原始文件一起索引。可以通过
计算
文件
的
MD5散列轻松地检测精确
的
重复项,但是是否有类似的方法可以用于检测近似重复项(具有很强
的
相似性,但不是完全相同
的
文件),以便将它们从数据库中删除?为了清楚起见,我想不惜一切代价避免像
计算
数据库中每种图像组合
的
欧几里得
距离
这样
的</
浏览 1
提问于2018-02-01
得票数 0
2
回答
用
Jaccard
索引Python
计算
相似度
、
、
我想
使用
Jaccard
来查找dataframe (user_choices)元素之间
的
相似性。index=(["User A", "User B", "User C", "User D", "User E", "User F"])) 我编写了以下代码来
计算
数据
的
Jaccard
索引:
jaccard
= (1-scipy
浏览 6
提问于2022-03-15
得票数 0
回答已采纳
1
回答
pyspark
MinHashLSH
Jaccard
距离
:不
计算
某些
对
的
距离
、
、
、
、
我正在尝试
使用
MinHashLSH
pyspark
计算
一些产品之间
的
Jaccard
距离
。我
使用
的
玩具数据是 sdf = spark.read.csv('dt.csv',header=True, sep=',', inferSchema=True) sdf = sdf.withColumn(
Jaccard
距离
,所以我遵循文档中
的
示例: order_matrix_
浏览 24
提问于2020-01-15
得票数 0
1
回答
Python中具有自定义
距离
函数
的
聚类算法
、
我有一个聚类问题,我认为需要一个直观
的
距离
函数。每个实例都有一个x,y坐标,但也有一组描述它
的
属性(每个实例
的
数量
不同)。我想将
距离
表示为x,y值之间
的
欧几里德
距离
的
加权和,以及一些类似于
jaccard
指数
的
值,以度量其他属性
的
集合重叠。例如,在sklearn中
使用
dbscan,要执行我
的
距离
函数,我需要以某种方式将数字转换回原
浏览 11
提问于2016-12-04
得票数 3
回答已采纳
1
回答
如何在大量句子之间找到连贯
、
、
、
、
由于文档搜索算法
的
结果,我有一个句子列表。我想用某种度量来确定返回
的
结果是否语义接近/相似/连贯。作为一个起点,我
使用
的
是单词漫游
距离
(WMD),并
计算
句子之间
的
相似性。但是我
的
句子列表太长,
对
列表(文档)中
的
所有项目进行配对比较在
计算
上是不可行
的
。解决这个问题最好
的
办法是什么?
浏览 0
提问于2021-01-15
得票数 1
1
回答
如何在预测模型中编码因子预测器
、
、
、
我
的
数据集中
的
response变量和所有predictor变量都是因子。我想建立一个模型来预测响应变量。据我所知,我必须首先
对
我
的
预测变量进行编码。我需要关于如何在R中做同样
的
建议。bt“依赖于"td”,但其他
的
是完全独立
的
。 下面是我
的
数据框架
的
结构。
浏览 1
提问于2019-10-20
得票数 0
1
回答
为什么在用pdist(度量= '
jaccard
')和are (
Jaccard
)生成
距离
矩阵时会有离散性?
、
、
、
、
我正在比较
使用
pdist和distance
距离
矩阵函数处理数据集
时
得到
的
Jaccard
距离
矩阵。我在输出
距离
矩阵中得到了不同
的
结果,我不知道为什么。我认为其中一个原因是: 我
的
jaccard
距离
计算
的
实现是wrong(metric = '
jaccard
')和,它们以不同
的
方式
计算
ja
浏览 8
提问于2022-01-01
得票数 1
回答已采纳
2
回答
字符串
的
无监督聚类
、
、
、
、
我有一个1000+关键字
的
列表,我想根据相似性将它们组合在一起。 谢
浏览 3
提问于2014-04-28
得票数 0
回答已采纳
1
回答
通过复制记录选择多个记录计数
、
动态创建
的
测试需要110个问题。重复问题是可以
的
。我知道我可以很容易地通过编程语言实现这一点,但是我
的
需求需要一个SQL解决方案。随机挑选
的
记录。重复
的
数量
应
保持在最低限度。也就是说:直到有重复
的
要求-不要。我只能看到重复
的
需要,当测试需要超过两倍
的
问题可用
的
数量
。并不是所
有的
测试都需
浏览 1
提问于2015-01-15
得票数 2
1
回答
如何
计算
R中数据
的
jaccard
相似度?
、
我正在尝试
使用
jaccard
相似性找到类似的用户。结果df列值是交/并。用户1和用户2之间
的
相似性为1/2。1/2 =两个用户共
有的
项目
数量
/两个用户拥
有的
项目总数我该怎么办?
浏览 7
提问于2021-03-12
得票数 0
回答已采纳
1
回答
推特之间
的
Jaccard
距离
、
、
、
、
我目前正在尝试测量数据集中
的
tweet之间
的
Jaccard
距离
到目前为止,这就是我所拥
有的
json_alldata <- fromJSON(sprintf("[%s]", paste不过,我不确定这是
对
的
。
Jaccard
距离
浏览 0
提问于2016-04-01
得票数 0
回答已采纳
1
回答
在没有笛卡尔
的
星火和Scala
的
帮助下,RDD
的
Jaccard
相似性?
、
、
我正在研究一
对
RDDs。我
的
目标是
计算
rdd值集之间
的
jaccard
相似度,并根据我
的
RDD
的
jaccard
相似阈值value.Structure
对
它们进行聚类:所以我取了rdd a<e
浏览 1
提问于2018-03-09
得票数 2
回答已采纳
1
回答
计算
Jaccard
相似性度量
的
gremlin语法
、
我感兴趣
的
是
计算
图中所有不直接连接
的
顶点
对
的
Jaccard
相似性度量。
Jaccard
度量被定义为两个顶点
的
邻域
的
交
的
范数除以相同集合
的
并
的
范数。 ? ? 哪里 ? 到目前为止,我已经能够获得所有没有直接连接
的
节点
对
(只对链接预测感兴趣,如果直接链接已经存在,那么我不需要
计算
Jaccard</em
浏览 35
提问于2019-03-21
得票数 0
回答已采纳
1
回答
无监督层次聚类
、
我读过许多论文,其中作者谈到了“无监督
的
层次聚集聚类”。它们似乎意味着该算法根据一个超参数来确定集群
的
数量
: 我们将簇内
的
异质性度量定义为所有
对
jaccard
距离
的
平均值,并且在每一步中,如果所产生
的
簇
的
异质性低于指定
的
阈值,则将两个簇合并。当我搜索聚合集群
的
python实现时,我总是想出sklearn,它需要指定集群
的
数量
。在大多数例子中,这是
浏览 0
提问于2021-02-13
得票数 0
1
回答
对
具有数字序列
的
不同长度
的
行进行分层聚类
、
、
我想在我
的
一个项目中做分层聚类。现在,我想根据相似节点
的</
浏览 0
提问于2016-04-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
氦质谱检漏仪应该如何正确操作?-深圳华尔升
如何正确操作氦质谱检漏仪呢?-深圳华尔升
智能运维系列(十一)| 日志文本异常聚类及相似度检测
NLP中的嵌入和距离度量
准备好了吗?中关村科技服务平台开始申报啦
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券