腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
包含
N
个
类
的
巨大
数据
集中
选择
至少
K
个
类
的
SubSampling
数据
、
、
、
我有一
个
数据
集,其中
包含
109
个
类别的130万条记录。显然,存在类别不平衡,
数据
中最高类别为18%,最低类别不到1% 现在,我
的
任务是设计一
个
通用
的
公式/技术/代码来从这些记录中采样,这样:我们需要
选择
的
最小记录数是多少,以便它
包含
来自
K
个
类别的记录(其中
K
可以
从
1到109变化),并且代表这些类别的原始<em
浏览 18
提问于2020-06-05
得票数 0
1
回答
按特定标记
选择
表中
的
行
我有一
个
巨大
的
数据
文件。在一
个
专栏中,我有一
个
大字母
的
特定序列,看起来像"FAPYGTITSAKVMRTE“。大约有1000行这样
的
序列。对我来说很重要
的
是
选择
那些序列中
至少
有一
个
"
K
“。剩下
的
我只能置之不理。如何
从
整个
数据
集中
选择
这些序列?如果需要的话,
浏览 1
提问于2013-10-07
得票数 0
回答已采纳
1
回答
使用SMOTE创建平衡
数据
集1:1,而不修改R中多数
类
的
观测结果
、
、
、
我正在研究一
个
二进制分类问题,我有一
个
不平衡
的
数据
集。我想创建一
个
新
的
更平衡
的
数据
集,每个
类
中有50%
的
观察值。为此,我使用了DMwR library提供
的
R中
的
平滑算法。在新
的
数据
集中
,我希望保持大多数
类
的
观测值不变。SMOTE减少或增加了多数<e
浏览 1
提问于2020-07-13
得票数 1
回答已采纳
1
回答
有什么信息理论可以帮助我在不需要视觉检查
的
情况下对
数据
集进行聚
类
?
、
、
、
我想集群
巨大
的
数据
集,但是瓶颈是参数调优而没有可视化检查。如果我有
N
个
样本,我不应该尝试
从
1到
N
簇,对吗?太残忍了。例:DBSCAN 按照,
选择
k
-距离,但是有什么理论可以帮助我确定
k
<em
浏览 1
提问于2019-01-25
得票数 0
1
回答
使用R在多级分析中将字符串ID转换为数字
我有两个
数据
集,一
个
用于学生级
数据
,另一
个
用于
类
级
数据
。学生级和班级级ID作为字符串值生成,如下所示:学生身份证->141PSDM2L,1420CHY1L,1JNLV36HH,1MNSBXUST,2
K
7EVS7X6,2
N
2SC26HL,...
类
级
数据
集:
类
ID ->XK37HDN,3
K
3EH77,2
K
36HN6,3<
浏览 2
提问于2013-09-17
得票数 1
回答已采纳
1
回答
使用R在多级分析中将字符串ID转换为数字
、
、
我有两个
数据
集,一
个
用于学生级
数据
,另一
个
用于
类
级
数据
。学生级和班级级ID作为字符串值生成,如下所示:学生身份证->141PSDM2L,1420CHY1L,1JNLV36HH,1MNSBXUST,2
K
7EVS7X6,2
N
2SC26HL,...
类
级
数据
集:
类
ID ->XK37HDN,3
K
3EH77,2
K
36HN6,3<
浏览 2
提问于2013-09-18
得票数 1
1
回答
如何用LibSVM分类高光谱
数据
集,用.mat文件训练支持向量机?
、
我试图使用LibSVM对高光谱
数据
集进行分类。 我
的
问题是:如何抽样特定数量或百分比<e
浏览 1
提问于2015-07-28
得票数 0
1
回答
Keras并不包括所有的
类
、
、
、
、
我已经做了一
个
模型,它被训练来预测一
个
从
34-63 (无十进制数)
的
数字,总共是30
个
潜在
的
输出。如何修复模型错误并使网络
包含
所有
类
更新2)如何打印前三大<e
浏览 0
提问于2021-04-17
得票数 0
3
回答
我们能自动
选择
k
-均值算法中
的
k
值吗?
、
我们能否自动
选择
K
值,尝试每一
个
可能
的
值(
k
=1,..,
n
),其中
n
是要集群
的
实例数。然后,我们保留
K
的
值,然后用最小二乘和
的
方法得到最小值。 这个策略能起作用吗?
浏览 0
提问于2020-12-22
得票数 1
1
回答
随机分区与分区,然后混洗
、
、
、
给定由相同分布生成
的
n
个
数据
点
的
集合,我希望将该集合“随机划分”为
k
个
组,每个组
包含
从
原始
数据
集中
随机
选择
的
n
/
k
个
点。 或者,我可以首先将输入
数据
集划分为
k
个
连续
的
块,其中第一
个
块
包含
1,...,
n</
浏览 1
提问于2014-11-04
得票数 0
1
回答
基于BIC
的
K
均值聚
类
中
的
最优聚
类
数(MATLAB)
、
、
、
、
大家都知道,在
k
-均值聚
类
中,我们可以使用贝叶斯信息准则(BIC)来找出最优
的
聚
类
数。使BIC评分最小化
的
k
是BIC评分方案中
的
最优聚
类
数。BIC
的
提法如下:其中
n
是
数据
集中
的
数据
点数,
k</e
浏览 11
提问于2017-09-28
得票数 0
回答已采纳
4
回答
SMOTE初始化预期
n
_neighbors <=
n
_samples,但
n
_samples <
n
_neighbors
、
、
、
、
(如果这是一组平衡
的
数据
)。但是,我初始化了imblearn
的
类
(以执行过采样).X_train以字符串列表(df['cleaned'])
的
格式
包含
1785行,y_train也
包含
1785行字符串格式(df['Year'])。至于
类
的
数量:使用Counter(),我计算出有199
个
类
(年份),每个
类
的
实例都附加到前面提到<e
浏览 1
提问于2018-03-20
得票数 14
回答已采纳
2
回答
非监督技术中
的
过度拟合
、
我正试图理解,在一种非监督
的
技术中是否会发生过度拟合,比如kmeans聚
类
。有人能帮我理解一下如果和如何发生这种事吗? 谢谢。
浏览 0
提问于2017-07-10
得票数 5
1
回答
学习带有未知特征值
的
PCA
、
、
、
我想使用sklearn进行pca分析(然后是回归和kmeans聚
类
)。我有一
个
包含
20
k
功能,2000
K
行
的
数据
集。然而,对于
数据
集中
的
每一行,只测量了一
个
子集(通常是20
k
中
的
任何5
个
)。我应该如何为我
的
熊猫
数据
下载/安装滑雪板,以使滑雪板不使用
的
情况下,价值还没有测量
的
浏览 1
提问于2016-10-27
得票数 1
回答已采纳
1
回答
K
均值多维
数据
聚
类
、
如果
数据
集有440
个
对象和8
个
属性(
数据
集取自UCI机器学习存储库)。那么我们如何计算这些
数据
集
的
质心呢?(批发客户
数据
) 如果我计算每一行
的
平均值,那会是质心吗?
浏览 2
提问于2014-09-04
得票数 9
回答已采纳
2
回答
MATLAB:
K
表示不同质心
的
聚
类
、
、
我创建了一
个
基于
k
-means聚
类
algorithm.But
的
代码簿算法没有收敛到最优代码簿,每次聚
类
的
质心都是不同
的
(因为随机
选择
初始种子)。在Matlab中有一
个
为
K
-Means.But提供初始矩阵
的
选项,但是我们如何
从
大型
数据
集中
选择
初始代码簿呢?有没有其他方法可以使用
K
-means获得唯一
的</
浏览 1
提问于2014-01-13
得票数 0
1
回答
在构建无监督分类
的
聚
类
时,我是否可以拥有500到2000
个
范围内
的
聚
类
、
我
的
数据
集有1,00000
个
条目。每个条目都给了我衬衫
的
尺码、价格和位置
的
详细信息。我想把这些
数据
按衬衫品牌分类。
从
数据
集
的
来源来看,我知道
数据
集中
有500
个
不同品牌
的
衬衫。我可以使用具有500
个
簇
的
聚
类
算法吗?我计划使用
K
-Means是否对聚
类
的
数量有任何
浏览 3
提问于2018-09-01
得票数 0
2
回答
列唯一值最小
的
行
的
随机值pandas
、
我有一
个
巨大
的
df (大约一百万行)和一堆列。其中一列
包含
一些分类
数据
,如Name0 1 PiemontePiemonte 2 Vercelli我想要做
的
是获得随机数量
的
行,比如10
浏览 15
提问于2020-02-10
得票数 0
1
回答
强制每个Keras批处理
包含
至少
一
个
来自每个
类
的
图像是不是一种糟糕
的
做法?
、
我正在用Keras训练一
个
U-Net CNN,其中一
个
图像
类
在训练
数据
集中
的
表示严重不足。我使用
类
加权损失函数来解释这一点,但我担心
的
是,在如此低
的
批次大小和低
类
实例
的
情况下,只有十分之一
的
批次可能
包含
此类图像。因此,即使
类
是加权
的
,网络在训练期间也很少看到它。因此,强制
数据
生成器在为批处理
选择</em
浏览 2
提问于2020-07-15
得票数 0
1
回答
将HDF5子集存储为
数据
集(在python中)
、
我只有有限
的
HDF5知识,但我想了解一些关于硬盘驱动器
的
选择
。 为了给出一些背景信息,我对使用HDF5在机器学习中
的
应用感兴趣。假设您有一
个
包含
n
行和p列
的
数据
矩阵。在典型
的
k
-folds交叉验证设置中,您将把矩阵拆分为
k
个
样本(每个样本
的
大小为(
n
/
k
, p)),并重复使用
k
-1进
浏览 0
提问于2015-01-06
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据时代来袭,推荐5个干货满满的数据类公众号
在电商平台落地大数据应用的6个场景2类服务12个框架
2025-03-08:使两个整数相等的位更改次数。用go语言,给定两个正整数 n 和 k。 你可以从 n 的二进制表示中选择任意
发一个与数学有关的视频类数据恢复案例 不知能否有人看得懂
机器学习学习笔记二
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券