腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
在dplyr中使用列表列函数进行变异
、
、
我试图
计算
源向量和比较向量之间
的
Jaccard
相似
度
。 首先,使用names_字段(字符串向量)创建一个tibble。使用dplyr
的
变异,创建一个列表列names_vec,其中
每
一行
现在都是一个向量(向量
的
每个元素都是一个字母)。然后,使用
列
jaccard
_sim创建一个新
的
tibble,用于
计算
Jaccard
的
相似<
浏览 6
提问于2017-10-23
得票数 15
回答已采纳
2
回答
pandas
:
根据
另一
列
中
的
值
计算
每
一行
的
jaccard
相似
度
、
、
我有一个数据帧,如下所示,只是有更多
的
行: import
pandas
as pd df = pd.DataFrame (data, columns = ['First
浏览 14
提问于2020-12-15
得票数 0
回答已采纳
1
回答
如何使用
计算
值
在dataframe
中
添加
另一
列
、
、
、
、
我现在有两个函数,一个
计算
相似
度
,
另一
个
计算
情感,这两个函数都从数据框
中
获取输入,我正在尝试做
的
是在数据框
中
创建
另一
个
列
,使用
计算
的
值
,如
相似
度
和情感(Pos/Neg)i=0
浏览 7
提问于2017-12-13
得票数 0
1
回答
如何使用
pandas
列
和字典高效地构建特性?
、
、
、
、
我遇到了一个机器学习问题,我正在用字典
的
值
计算
pandas
数据帧文本
列
的
二元语法
Jaccard
相似
度
。目前,我将它们存储为列表,然后将它们转换为
列
。这在生产中被证明是非常慢
的
。有没有更有效
的
方法呢?以下是我目前正在遵循
的
步骤:对于dict
中
的
每个键: 1.获取
pandas
列
和dictkey<e
浏览 21
提问于2019-10-06
得票数 1
回答已采纳
1
回答
jaccard
相似
性
的
绘图热图
、
、
、
、
考虑如下所示
的
数据帧。import
pandas
as pd {'col1':'101', 'col2': '101', 'col3':'1321'}, {'col1':'1321', 'col2&
浏览 9
提问于2021-06-17
得票数 0
回答已采纳
1
回答
计算
不同长度DataFrame
列
之间
的
Jaccard
相似
度
、
、
、
我有一个数据帧,其中user_ids作为
列
,他们喜欢
的
电影
的
ids作为行
值
。(即每个用户使用他们喜欢
的
电影)之间
的
Jaccard
相似
度
。当我尝试使用sklearn
中
的
jaccard
_similarity_score时,Python显示以下错误:理想情况下,我希望得到一个矩阵,其中包含user_id<e
浏览 7
提问于2017-08-15
得票数 1
回答已采纳
1
回答
从稀疏数组高效
计算
成对
Jaccard
相似
度
、
、
、
、
我有一个类似下面的数组,
每
一行
是一个观察
值
,
每
一
列
是一个特征: import scipy my_sparse_array = scipy.sparse.random(2000, 10000000, density=0.01, format='csr') 对于每对观察
值
(行),我要
计算
它们之间
的
Jaccard
相似
度
-考虑到数组
中
的
非零
值<
浏览 25
提问于2018-12-26
得票数 0
回答已采纳
2
回答
在Python中
计算
Jaccard
相似
度
、
、
、
、
我有20,000个文档要
计算
真正
的
Jaccard
相似
度
,以便以后可以检查MinWise散
列
对它
的
近似程度。每个文档都表示为数字矩阵
中
的
一
列
,其中
每
一行
都是一个单词,要么出现在文档
中
(entry=1),要么不出现(entry = 0)。大约有600字(行)。因此,例如,第1
列
将是1 0 0 0 1 0 0 0 1,这意味着单词1,7,11出现在其中
浏览 0
提问于2016-11-14
得票数 8
回答已采纳
1
回答
包含与
Jaccard
相似
的SQL查询
的
联合和交集
、
、
、
、
FOREIGN KEY (cid) REFERENCES Customer(cid),只考虑那些至少购买了一次
的
顾客对于
每
一对这类客户,
计算
他们购买
的
产品
的
Jaccard
相似
性。也就是说,如果客户A已经购买了a
的
产品,而客户B已经购买了b
的
产品集,它们
的
Jaccard
相似
性是两个集合<
浏览 1
提问于2016-02-16
得票数 1
回答已采纳
1
回答
为什么最小哈希算法使用随机排列而不是随机选择?
利用MinHash算法
计算
了两组集
的
相似
度
。MinHash
的
计算
值
与
Jaccard
相似
系数接近。Minhash步骤是:对1.2^m应用随机置换重复步骤2和3,n次。
计算
集
的
最小指数
的
最小
值
等于/n
的
次数(tihs接近<em
浏览 0
提问于2022-06-11
得票数 0
1
回答
我收到错误AttributeError:‘AttributeError’对象没有'split‘属性
、
、
、
、
我有两行,第
一行
和第二行,
每
一
列
都有单词(
每
一行
基本上是一个文本)。我想看到
相似
之处。我没有频率,只有单词,但据我所知,这个算法也给了我频率。name: str, value) -> None: 我想拆分每个单词,并获得文本
中
每个单词之间
的
频率和
相似
度
当我打
浏览 10
提问于2021-09-11
得票数 0
2
回答
从scipy.pdist(myArray,metric="
jaccard
")获取结果索引,以映射回原始数组?
、
、
、
、
我在试着
计算
jaccard
的
相似
性X是一个m x n矩阵,作为这个函数
的
结果,我得到了一个大小为m choose 2
的
一维数组。我如何将
相似
值
映射回一个对称数组,或者(不对称数组无论哪种方式都可以),这样我就可以从X(X
中
的
每
一行
都
浏览 5
提问于2015-02-09
得票数 1
回答已采纳
1
回答
具有不同标签
的
两个文本之间
的
关系
但我担心
的
是,如果用户想要添加标记(例如,[b]标记),我需要知道他们想要将其包含在何处。 为此,我需要确切地知道应该在bbcode
中
的
什么位置插入标记。我想比较一下这两个文本(一个使用<span>这样
的
html标签,
另一
个使用[b]这样
的
bbcode标签),这就是我在努力
的
地方。我做了一些研究,但找不到任何对我有帮助
的
东西,或者我没有正确理解它(也许我做错了研究)。我能找到
的
是
Jaccard
index
浏览 0
提问于2018-08-27
得票数 0
4
回答
如何从python
中
的
列表
中
删除重复项
、
、
如果item2和item3
相似
,则结果将变成list = ['item1', 'item2', 'item4']很抱歉我
的
问题让人困惑。 列表项是三联图
的
集合。我想在列表
中
删除类似的项目。list = [('very','beauty','place'),('very','good','place'),('another
浏览 6
提问于2013-09-16
得票数 1
回答已采纳
1
回答
如何选择埃尔斯丁LSH
Jaccard
相似
指数参数L和k?在我
的
例子
中
,最小散
列
大小= 100,
jaccard
相似
性= 0.8
、
、
、
我正在尝试使用Elasticknn插件来检测接近重复
的
插件。我已经创建了文本文档
的
Minhash,其minhashes size = 100
根据
我对LSH,Minhash重复检测算法
的
了解,
根据
jaccard
相似
度
的
要求级别(例如0.8),我们必须选择 r 桶数b
浏览 4
提问于2021-10-12
得票数 0
1
回答
在没有笛卡尔
的
星火和Scala
的
帮助下,RDD
的
Jaccard
相似
性?
、
、
我
的
目标是
计算
rdd
值
集之间
的
jaccard
相似
度
,并
根据
我
的
RDD
的
jaccard
相似
阈值value.Structure对它们进行聚类: val a= [Key,Set(String)] //Pair在找到
jaccard
相似
性之后,我会将
相似
的实体聚到一个集群
中
。在上面的例子
中
浏览 1
提问于2018-03-09
得票数 2
回答已采纳
1
回答
基于关键字数量
的
文档与其他文档相关
的
概率
、
如果用户搜索单词"Computer“,并且我想显示基于关键字"Computer”
的
最相关
的
文档。我
的
算法
根据
关键词在文档中出现
的
次数来选择最相关
的
文档。唯一
的
问题是文档X有10个单词,"Computer“出现两次,而文档Y有1000个单词,"Computer”出现100次。从文档
中
的
字数来看,说文档Y比文档X更相关是不正确
的
。如何对此进行规范化,以获得最准确
的
浏览 8
提问于2016-01-09
得票数 0
1
回答
如何使用python检查两个不同excel文件
中
的
两个列表之间
的
相似
性?
、
、
我有两个包含客户姓名
的
列表。名称可以
相似
,也可以不同。如何使用python查找这两个列表之间
的
相似
性? 在有了
相似
性之后,我想把相应
的
数据从一个excel文件拉到
另一
个。我尝试了
Jaccard
相似
度
,将两个列表分别作为excel文件传递给函数,但结果(即
Jaccard
相似
度
)始终为零。编辑:如何遍历两个列表,将每个元素与其他列表
中
的</e
浏览 5
提问于2018-10-29
得票数 0
1
回答
如何避免R
中
的
循环?
、
我正在用R来处理一个项目,这个项目是,给出一个节点间边缘
的
大数据,来测试测试边是否为真。就像在项目中一样,基本元素应该是“边”,这样我们就可以判断给定
的
边是否是真实
的
。所以问题就来了。我们创建了一个由“从”节点和“到”节点
的
两
列
组成
的
数据框架来表示边缘,这是edgesData,然后我们从它创建了一个图,它使用igraph,即graph.We可以
计算
两个特定节点
的
相似
性,使用 similarity.
jaccard
我试过
浏览 4
提问于2015-08-24
得票数 0
回答已采纳
2
回答
用于Excel模糊查询
的
算法
、
、
、
我正在做两组公司名称
的
匹配工作。我试着用Python编写代码,使用Levenstien
的
距离。我遇到了公司缩写
的
问题,以及他们
的
尾随部分,比如Pvt,Ltd。我已经用Excel模糊查找运行了相同
的
集合,并获得了良好
的
结果。我有一种方法,我可以看到excel模糊查找是如何编码
的
,并使用python
中
的
相同实现。
浏览 25
提问于2018-09-28
得票数 1
点击加载更多
相关
资讯
pandas入门指南
手把手教学,利用Python构建一个简单的推荐系统
Python模块-Pandas(三)排序、运算及高级函数使用
肝了3天,整理了90个Pandas案例
pandas系列学习(三):DataFrame
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券