有没有办法对大型数据集进行循环子集？

、、、

我正在尝试使用'R‘将一个相当大的数据集(530行，211列)分成两个子集，每个子集46行，20行中的21行，16行中的1行和2行中的1行。我不想多次复制代码，而是想为此创建一个循环。另外，当子集设置时，我想删除子集的前3列。，所以我想使用循环，但我不知道如何编码。我想每年以块为单位设置整个数据集的子集，并为此使用一个循环。下面我发布了数据集<

浏览 23提问于2019-02-19得票数 0

回答已采纳

1回答

R使用for循环从一个大型csv文件设置子集并创建较小的csv文件

、

我有一个温度的大型数据集(Csv)，我必须按日期(年)进行子集，以按十年创建5个较小的数据集。因此1960-1969年的数据将是一个较小的csv文件，1970-1979年的数据将是另一个csv文件，等等。我一直在尝试使用for循环来实现这一点IDs<-unique(df$ID) temp <- df[df$ID==IDs[i],f

浏览 4提问于2015-11-22得票数 0

1回答

Neo4j:按总关系对大型结果集进行排序？

、、

有没有可能获取一个大的节点子集，并按总的关系对它们进行排序？或者换一种说法，有没有可能从neo4j返回连接最多的节点在顶部的大型结果集？

浏览 0提问于2013-02-06得票数 0

回答已采纳

1回答

我们有一个大型数据集，需要将其划分为1,000个单独的文件，我们想要使用的最简单的实现是应用PartitionFn，它在给定数据集的一个元素的情况下，返回1到1,000之间的随机整数。这种方法的问题是，它最终会创建1,000个PCollections，并且管道不会启动，因为似乎对“步骤”的数量有硬限制(与执行图中作业监视UI上显示的框相对应)。有没有办法提高这个限制(限制是多少)？我们用来解决这个问题的解决方案是首先将数据划分为较小的

浏览 0提问于2016-12-03得票数 0

3回答

在大型数据集上进行聚类

、、

我正在尝试对一个大型(‘m)数据集进行集群。为了聚类，你需要每个点到其他点的距离，所以你最终得到了一个N^2大小的距离矩阵，在我的数据集的情况下，它将是艾字节的数量级。当然，Matlab中的Pdist会立即崩溃;) 有没有一种方法可以先对大数据的子集进行聚类，然后再进行一些相似聚类的合并？我不知道这是否有帮助，但数据是固定长度的二进制字符串，所以

浏览 0提问于2011-03-29得票数 5

3回答

设置嵌套列表，选择多个条目

、、、

我经常使用大型数据集，因此有时会创建嵌套列表来减少环境中的对象。当删除这样的列表并希望沿着所有步骤进入第一个条目时，如下所示：在我当前的一些脚本中，这些脚本中的数据是对齐的，因为下一步列表中的每个条目都是可比较的。如果我想比较这些或做一个计算，它会是这样的：有没有办法对它们进行</em

浏览 3提问于2021-12-15得票数 0

回答已采纳

6回答

实时内插大型数据集

、、

对大数据集进行插值我有一个应用程序，它希望能够将这些数据或子集绘制成图形。我需要的是一个更小的数据集(100个点左右)，它(尽可能)准确地表示给定的数据。有没有人知道有什么有趣的和有效的方法来获得这些数据？干杯，卡尔

浏览 0提问于2010-03-25得票数 9

回答已采纳

2回答

关于迭代数据集的Tensorflow速成课程问题

我对中的my_input_fn()感到非常困惑如果shuffle = False，estimator.train()不会在循环中使用相同的数据子集吗？即循环迭代#1和#0使用相同的数据子集。这里的目标是：*在循环中调用estimator.train() *评估循环内的验证错误*训练()和评估应该在不同循环iteration#的不同数据子集上进行。由于input_

浏览 1提问于2019-01-02得票数 0

2回答

dplyr循环滤波re *

、、、

我使用dplyr和for循环的组合来对数据库进行子集。我想对整个数据集执行第一个操作。我的正则表达式循环失败。什么是解决办法？

浏览 1提问于2019-09-21得票数 2

回答已采纳

5回答

在MySQL中建立大型数据库以便在R中进行分析

、、

在R中分析大型数据集时，我已经达到了内存的极限。我认为我的下一步是将这些数据导入到MySQL数据库中并使用RMySQL包。很大程度上是因为我不懂数据库的行话，所以我不知道如何通过几个小时的Googling和RSeeking来安装MySQL (我在MacOSX10.6上运行MySQL和MySQL Workbench，但也可以运行关于如何开始使用这个用法，有没有好的参考资料？在这一点上，我不想做任何类型的关系数据库。我只想将.csv文件导入到本地MySQL

浏览 1提问于2010-07-27得票数 10

回答已采纳

1回答

Stata -从大型数据集中读取有限数量的变量

我正在使用Stata IC 13，需要对大型dataset.The问题的不同变量进行不同类型的分析，因为我的数据集非常大，所以我得到了以下错误我需要一种灵活的方式，通过变量名导入变量，而不是将原始数据集拆分到许多小子集中。我听说过，但是我对Stata还比较陌生，所以如果有人能向我展示他们

浏览 3提问于2013-11-04得票数 3

回答已采纳

1回答

Firebase模拟器(Firestore)在大型数据集上超时

、、

我已经从Firestore导出了大约2 2GB的生产数据，我正在尝试将其导入到Firebase模拟器中。有没有办法增加这个超时时间？我相当确定问题的原因是数据库的大小，因为它适用于较小的数据集。此外，当我导出集合的子集时，大型集合的文档不会显示在仿真器UI中。显示了集合名称，但没有文档。是否有任何在线资源可以帮助您了解如何处理大型数据集或有关Emulator限制的任何文档？谢谢

浏览 20提问于2021-04-07得票数 0

1回答

如何在Pyspark中创建按列拆分的RDD子集？

、

我有一个大型数据集作为一个RDD。我想创建这个RDD的大约100个按列排列的子集，这样我就能够在循环中单独对每个子集运行映射转换。.,1000)(1,2,3,...,100)(1,2,3,...,100) 我如何在Pyspark中做到这一点呢

浏览 1提问于2017-01-21得票数 0

回答已采纳

1回答

通过多种因素的组合从数据帧创建子集

、、、、

我需要在一个大型数据集上按列进行成对迭代分析。第一列包含分类变量，其余列包含数值变量。(x) {data.x <- df %>% filter(T %in% x)} df_sets <- apply(ls1, MARGIN = 2, pair) 然后，我可以使用每个子数据集对每一列进行t但是，在实际情况中，我有一个比a/b/c长得多的数据集，这使得手动重复此过程非常费力。如何从d

浏览 11提问于2020-10-12得票数 1

回答已采纳

1回答

如何获得大型数据库的(描述性)概述？

、、、、

我面临着一个数据框架151个变量首先，我主要感兴趣的是数据与单个参数的关系。但我不能在x轴上绘制2078个主题，然后用它绘制一个条形图。

浏览 0提问于2020-12-09得票数 1

2回答

如何决定使用TFIDF的方法，还是鞠躬？

、、、

在NLP的大型数据集中，需要很长时间才能对数据集进行分类。有没有一种方法可以告诉我哪种方法更有可能给出最高的F1分数。我试过在较小的子集(1000条记录)上测试它们，这是快速的，但在较小的子集中最好的方法并不意味着它在完整的数据集中是最好的。还有其他方法来决定使用哪种方法吗？

浏览 0提问于2021-03-03得票数 0

1回答

如何使用逻辑索引和min函数查找具有min值的行？

所以，我知道如何使用子集函数找到它。有没有办法不使用子集函数？示例数据集：J 67 89 M 78 89 M 54 75我的问题:如何对这个数据集使用逻辑索引和最小函数？我不想用子集。

浏览 2提问于2021-09-13得票数 1

1回答

在python中将大数据集划分为较小的子集

、、

我有一个大型的基于时间的数据集。它有120,496个数据点。我想要有更小的子集，每个子集有600个数据点(问题是最后一个系列，因为长度不是600的倍数)，我可以用一个冗长而肮脏的for循环来做到这一点，但我想问一下，有没有什么简单的函数可以执行这个任务？

浏览 30提问于2020-08-23得票数 0

回答已采纳

1回答

如何从绘制的数据中获取平均值？从缩小的曲线图到数据

、、

我通过缩小ggplot2中菱形数据集的范围得到了这个图。我是通过对x限制、截取等进行排序来实现的。qplot(price,carat,data=diamonds,cut="Ideal",color=clarity) + xlim(2500,3000) + ylim(1,1.6)如何提取这些数据这是否代表它自己的大型数据集的子集？这样我就可以做一些事情，如获取平均价格，最大克拉价值等。

浏览 0提问于2013-01-22得票数 0

回答已采纳

1回答

从大型数据集生成循环数据子集

、

我试着用R从一个大数据集中提取某些数据。数据来自一个经过几个阶段的过程，比如说阶段0到5。我有一个包含进程多次运行的数据集。我试图提取每一次运行的数据。我想要创建第一次出现阶段0到5的子集，然后是第二次运行阶段0到5的另一个子集。数据集只包含进程数据和按时间顺序排列的位相数，它不知道它在哪个运行中。我已经尝试过使用一些while和for循环来组织数据，但是在这么

浏览 0提问于2019-04-15得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R使用for循环从一个大型csv文件设置子集并创建较小的csv文件

Neo4j:按总关系对大型结果集进行排序？

执行管道时的“步骤”太多

在大型数据集上进行聚类

设置嵌套列表，选择多个条目

实时内插大型数据集

关于迭代数据集的Tensorflow速成课程问题

dplyr循环滤波re *

在MySQL中建立大型数据库以便在R中进行分析

Stata -从大型数据集中读取有限数量的变量

Firebase模拟器(Firestore)在大型数据集上超时

如何在Pyspark中创建按列拆分的RDD子集？

通过多种因素的组合从数据帧创建子集

如何获得大型数据库的(描述性)概述？

如何决定使用TFIDF的方法，还是鞠躬？

如何使用逻辑索引和min函数查找具有min值的行？

在python中将大数据集划分为较小的子集

如何从绘制的数据中获取平均值？从缩小的曲线图到数据

从大型数据集生成循环数据子集

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐