从包含N个类的巨大数据集中选择至少K个类的SubSampling数据

、、、

我有一个数据集，其中包含109个类别的130万条记录。显然，存在类别不平衡，数据中最高类别为18%，最低类别不到1% 现在，我的任务是设计一个通用的公式/技术/代码来从这些记录中采样，这样:我们需要选择的最小记录数是多少，以便它包含来自K个类别的记录(其中K可以从1到109变化)，并且代表这些类别的原始<em

浏览 18提问于2020-06-05得票数 0

1回答

按特定标记选择表中的行

我有一个巨大的数据文件。在一个专栏中，我有一个大字母的特定序列，看起来像"FAPYGTITSAKVMRTE“。大约有1000行这样的序列。对我来说很重要的是选择那些序列中至少有一个"K“。剩下的我只能置之不理。如何从整个数据集中选择这些序列？如果需要的话，

浏览 1提问于2013-10-07得票数 0

回答已采纳

1回答

使用SMOTE创建平衡数据集1:1，而不修改R中多数类的观测结果

、、、

我正在研究一个二进制分类问题，我有一个不平衡的数据集。我想创建一个新的更平衡的数据集，每个类中有50%的观察值。为此，我使用了DMwR library提供的R中的平滑算法。在新的数据集中，我希望保持大多数类的观测值不变。SMOTE减少或增加了多数<e

浏览 1提问于2020-07-13得票数 1

回答已采纳

1回答

有什么信息理论可以帮助我在不需要视觉检查的情况下对数据集进行聚类？

、、、

我想集群巨大的数据集，但是瓶颈是参数调优而没有可视化检查。如果我有N个样本，我不应该尝试从1到N簇，对吗？太残忍了。例：DBSCAN 按照，选择k -距离，但是有什么理论可以帮助我确定k<em

浏览 1提问于2019-01-25得票数 0

1回答

使用R在多级分析中将字符串ID转换为数字

我有两个数据集，一个用于学生级数据，另一个用于类级数据。学生级和班级级ID作为字符串值生成，如下所示：学生身份证->141PSDM2L,1420CHY1L,1JNLV36HH,1MNSBXUST,2K7EVS7X6,2N2SC26HL,...类级数据集：类ID ->XK37HDN,3K3EH77,2K36HN6,3<

浏览 2提问于2013-09-17得票数 1

回答已采纳

1回答

使用R在多级分析中将字符串ID转换为数字

、、

浏览 2提问于2013-09-18得票数 1

1回答

如何用LibSVM分类高光谱数据集，用.mat文件训练支持向量机？

、

我试图使用LibSVM对高光谱数据集进行分类。我的问题是:如何抽样特定数量或百分比<e

浏览 1提问于2015-07-28得票数 0

1回答

Keras并不包括所有的类

、、、、

我已经做了一个模型，它被训练来预测一个从34-63 (无十进制数)的数字，总共是30个潜在的输出。如何修复模型错误并使网络包含所有类更新2)如何打印前三大<e

浏览 0提问于2021-04-17得票数 0

3回答

我们能自动选择k-均值算法中的k值吗？

、

我们能否自动选择K值，尝试每一个可能的值(k=1，..，n)，其中n是要集群的实例数。然后，我们保留K的值，然后用最小二乘和的方法得到最小值。这个策略能起作用吗？

浏览 0提问于2020-12-22得票数 1

1回答

随机分区与分区，然后混洗

、、、

给定由相同分布生成的n个数据点的集合，我希望将该集合“随机划分”为k个组，每个组包含从原始数据集中随机选择的n/k个点。或者，我可以首先将输入数据集划分为k个连续的块，其中第一个块包含1，...，n</

浏览 1提问于2014-11-04得票数 0

1回答

基于BIC的K均值聚类中的最优聚类数(MATLAB)

、、、、

大家都知道，在k-均值聚类中，我们可以使用贝叶斯信息准则(BIC)来找出最优的聚类数。使BIC评分最小化的k是BIC评分方案中的最优聚类数。BIC的提法如下：其中n是数据集中的数据点数，k</e

浏览 11提问于2017-09-28得票数 0

回答已采纳

4回答

SMOTE初始化预期n_neighbors <= n_samples，但n_samples < n_neighbors

、、、、

(如果这是一组平衡的数据)。但是，我初始化了imblearn的类(以执行过采样).X_train以字符串列表(df['cleaned'])的格式包含1785行，y_train也包含1785行字符串格式(df['Year'])。至于类的数量:使用Counter()，我计算出有199个类(年份)，每个类的实例都附加到前面提到<e

浏览 1提问于2018-03-20得票数 14

回答已采纳

2回答

非监督技术中的过度拟合

、

我正试图理解，在一种非监督的技术中是否会发生过度拟合，比如kmeans聚类。有人能帮我理解一下如果和如何发生这种事吗？谢谢。

浏览 0提问于2017-07-10得票数 5

1回答

学习带有未知特征值的PCA

、、、

我想使用sklearn进行pca分析(然后是回归和kmeans聚类)。我有一个包含20k功能，2000 K行的数据集。然而，对于数据集中的每一行，只测量了一个子集(通常是20k中的任何5个)。我应该如何为我的熊猫数据下载/安装滑雪板，以使滑雪板不使用的情况下，价值还没有测量的

浏览 1提问于2016-10-27得票数 1

回答已采纳

1回答

K均值多维数据聚类

、

如果数据集有440个对象和8个属性(数据集取自UCI机器学习存储库)。那么我们如何计算这些数据集的质心呢？(批发客户数据) 如果我计算每一行的平均值，那会是质心吗？

浏览 2提问于2014-09-04得票数 9

回答已采纳

2回答

MATLAB: K表示不同质心的聚类

、、

我创建了一个基于k-means聚类algorithm.But的代码簿算法没有收敛到最优代码簿，每次聚类的质心都是不同的(因为随机选择初始种子)。在Matlab中有一个为K-Means.But提供初始矩阵的选项，但是我们如何从大型数据集中选择初始代码簿呢？有没有其他方法可以使用K-means获得唯一的</

浏览 1提问于2014-01-13得票数 0

1回答

在构建无监督分类的聚类时，我是否可以拥有500到2000个范围内的聚类

、

我的数据集有1,00000个条目。每个条目都给了我衬衫的尺码、价格和位置的详细信息。我想把这些数据按衬衫品牌分类。从数据集的来源来看，我知道数据集中有500个不同品牌的衬衫。我可以使用具有500个簇的聚类算法吗？我计划使用K-Means是否对聚类的数量有任何

浏览 3提问于2018-09-01得票数 0

2回答

列唯一值最小的行的随机值pandas

、

我有一个巨大的df (大约一百万行)和一堆列。其中一列包含一些分类数据，如Name0 1 PiemontePiemonte 2 Vercelli我想要做的是获得随机数量的行，比如10

浏览 15提问于2020-02-10得票数 0

1回答

强制每个Keras批处理包含至少一个来自每个类的图像是不是一种糟糕的做法？

、

我正在用Keras训练一个U-Net CNN，其中一个图像类在训练数据集中的表示严重不足。我使用类加权损失函数来解释这一点，但我担心的是，在如此低的批次大小和低类实例的情况下，只有十分之一的批次可能包含此类图像。因此，即使类是加权的，网络在训练期间也很少看到它。因此，强制数据生成器在为批处理选择</em

浏览 2提问于2020-07-15得票数 0

1回答

将HDF5子集存储为数据集(在python中)

、

我只有有限的HDF5知识，但我想了解一些关于硬盘驱动器的选择。为了给出一些背景信息，我对使用HDF5在机器学习中的应用感兴趣。假设您有一个包含n行和p列的数据矩阵。在典型的k-folds交叉验证设置中，您将把矩阵拆分为k个样本(每个样本的大小为(n/k, p))，并重复使用k-1进

浏览 0提问于2015-01-06得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

按特定标记选择表中的行

使用SMOTE创建平衡数据集1:1，而不修改R中多数类的观测结果

有什么信息理论可以帮助我在不需要视觉检查的情况下对数据集进行聚类？

使用R在多级分析中将字符串ID转换为数字

使用R在多级分析中将字符串ID转换为数字

如何用LibSVM分类高光谱数据集，用.mat文件训练支持向量机？

Keras并不包括所有的类

我们能自动选择k-均值算法中的k值吗？

随机分区与分区，然后混洗

基于BIC的K均值聚类中的最优聚类数(MATLAB)

SMOTE初始化预期n_neighbors <= n_samples，但n_samples < n_neighbors

非监督技术中的过度拟合

学习带有未知特征值的PCA

K均值多维数据聚类

MATLAB: K表示不同质心的聚类

在构建无监督分类的聚类时，我是否可以拥有500到2000个范围内的聚类

列唯一值最小的行的随机值pandas

强制每个Keras批处理包含至少一个来自每个类的图像是不是一种糟糕的做法？

将HDF5子集存储为数据集(在python中)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐