有没有一种方法可以在大型数据集上更快地运行“查找峰值”函数？

文章/答案/技术大牛

发布

1回答

我有一个名为"endata“的大型数据集-590万个数据点。这表示90天内的数据。数据集是单个向量。0.0187603772480992该函数需要很长

浏览 12提问于2020-06-05得票数 2

1回答

Mysql反向模式匹配-替代？

、、、

假设我在MySQL数据库表中有以下值：ababcdSELECT * FROM table WHERE 'abcde12345' LIKE CONCAT(col, '%'); 在大型数据集上，...but的速度非常慢。有没有更智能的存储数据的方

浏览 0提问于2017-04-07得票数 0

1回答

如何在Python中检测函数最末端的峰值？

、、、

我正在尝试使用scipy来寻找函数的峰值，但是我希望它也能检测到边界上的峰值。以下是其中一个案例的快照。正如我们所看到的，该方法检测到10个峰值，但我希望包括边界处的峰值在内的总峰值为12个。有什么办法可以做到吗？另外，我不想像这样包含开始和结束索引。我将在一个大型数据集上运行此方法，以便寻找通用的解决方案。

浏览 22提问于2020-02-26得票数 1

1回答

我正在尝试搜索我的代码库，以查找缩进不一致的文件。基本上，我不关心文件是用制表符还是空格缩进的，只要它是内部一致的。显然，我可以运行grep -Prn "^\t" src来查找以制表符开头的行，运行grep -Prn "^ " src来查找空格，但是我不知道如何搜索至少包含两种模式的一个匹配的文件。我能想到的最好的办法就是 for f in `grep -Prl "^\t" src` ; do grep -Pl

浏览 1提问于2019-05-08得票数 0

2回答

平滑信号并找到峰值

、、

在这里，我使用scipy.signal.argrelextrema来查找曲线的波峰和波谷。然而，要得到一条拟合良好的曲线是一种非常“手动”的方法，我必须首先用眼睛来解释数据，以便选择多项式阶数。我将在许多数据集(100,000个)上重复此过程，因此不能每次都手动执行此操作。此外，我拥有的峰值数量可能会发生变化。事实上，我在这里的最终目标是将我拥有的数据集分类为我可以检测到的<em

浏览 38提问于2019-05-28得票数 2

回答已采纳

2回答

python中针对大数据的延迟执行

、

我正在尝试思考Python API如何查找像Cassandra这样的大型数据存储。Matlab和NumPy倾向于使用“一切都是矩阵”的公式，分别执行每个操作。这个模型已经证明对内存中可以容纳的数据是有效的。但是，SAS用于大数据的好处之一是它逐行执行，在移动到下一行之前执行所有行计算。对于较小的数据集，与NumPy相比，性能将非常差，因为函数不是使用编译代码向量化的。", Poor") 这将非常<

浏览 1提问于2010-01-06得票数 1

1回答

Excel中的快速傅立叶变换--如何获得二次和三次谐波？

、

我有一个具有二次和三次谐波的正弦波(带有偏移量)的一个周期的1253个点的实验数据，并尝试应用Excel的FFT功能。因为FFT需要2^n个数据点，所以我不得不截断初始数据集，首先删除每6行，然后删除每52行，这样我就只剩下1023个点，所以我只是将最后一个点加倍，以获得所需的1024个数据点。因此，我失去了229个点，不知道还能做什么(用零填充似乎不太可能，因为这是在添加一个阶跃函数，作为对原始数据集的修改，这是更不可取的)。现在，

浏览 8提问于2012-01-07得票数 0

1回答

在Nodejs工作线程之间共享大型数据集

在我的nodejs服务器中，我需要对来自SQL server数据库的大型数据集执行CPU密集型计算。我一直在阅读Worker Thread作为一种并行处理数据的方法，因为我需要尽可能快地完成所有计算。我需要在同一数据集上执行大约50个不同的数学运算。我绝不会在执行操作时修改数据集，并且工作人员不依赖于其他工作人员的结果来计算他

浏览 3提问于2020-11-21得票数 0

2回答

在Excel中通过字符串创建函数

、、、

我正试图找到一种更简单的方法来计算以下统计数据:平均值、std、min和max。到目前为止，我已经尝试将函数名(E9)、开始列($E$6)、开始行($F$2)、结束列($G$6)和结束行($F$3)组合在一起。结果为AVERAGE(A2:C10)。是否存在将其转化为Excel可以识别的等式的问题？这个概念将用于查找大型数据集的平均值、std、min和max。提前感谢！

浏览 3提问于2015-04-08得票数 1

回答已采纳

1回答

r/需要最少前期工作的组合优化函数/包

、、

我有一个由预处理方法名称组成的数据帧。noscale naomit scale 在第一步中，函数g()按行执行这些方法，以创建预处理的数据集。对于第一行: identity(na.omit(data)) 在步骤2中，为每个预处理数据集计算分类误差。目标是找到一

浏览 4提问于2015-10-02得票数 0

1回答

将大文件直接从App engine上传到Google Storage

、、、

我正在尝试构建一个系统，用户从他们的dropbox中选择一个大型数据集，然后将这些数据下载到google云存储桶中。问题是我的后端代码在AppEngine上运行，因此我无法将大文件下载到磁盘上以上传到存储桶中。 有没有一种方法可以通过编程告诉云存储从URL检索数据？或者，有没有其他方法可以将这些数据下载到App

浏览 6提问于2020-02-25得票数 0

2回答

访问数据集具有连续名称的HDF5文件的最佳方法

、、

这是我遇到的问题的精华版："/Group“+ Dataset0001双数组2到3维，数据量大+ Dataset0002 + Dataset0003+ ... + DatasetXXXX 数据集被分块并写入循环中，该循环在每次迭代期间只知道每个数据集的一个片段。因此，在每次迭代中，所有数据集都会发生不完整的

浏览 1提问于2014-05-02得票数 0

1回答

在红移负载期间增加磁盘使用率

、

上下文在Redshift负载期间，我看到磁盘使用的增长速度比我预期的要快。如果

浏览 0提问于2014-12-21得票数 1

4回答

从大量ID中选择sql

、、、

我在Foo上运行一个查询，以从Foo的子集获取I。然后，我想运行一组更复杂的查询，但只针对这些I。有没有一种有效的方法来做到这一点？我能想到的最好方法是创建一个查询，如下所示： SELECT ...有没有一种更有效的方法来实现这一点，或者这是连接获得ID的初始查询的唯一方法？如果有帮助，我将使用SQLObject连接到一个PostgreSQL数据

浏览 1提问于2010-06-09得票数 3

回答已采纳

3回答

在大文件中跳过C++ /快速随机访问

、、

我有大文件，包含少量的大型数据集。每个数据集包含一个名称和数据集大小(以字节为单位)，允许跳过它并转到下一个数据集。我想非常快地建立一个数据集名称的索引。一个文件示例大小约为21 88，包含88个数据集。使用std::ifstream和seekg()在数据集之间跳过88个名称需要大约1300 88，我想减少这

浏览 9提问于2016-12-21得票数 5

回答已采纳

1回答

从Excel导入数据，不包括列

、

我正在使用R Studio从Excel导入一个大型数据集。导入后，数据集缺少最后50列左右。有没有什么办法可以强制R保留所有的列？或者，有没有一种更快的方法来消除不太有用的列，而不是在我可以省略的每一列上分别单击跳过？

浏览 0提问于2018-03-13得票数 0

1回答

如何使用Pandas减少循环处理100万组数据的时间？

、、、

我在一个csv文件中的一列中有将近一百万行数据。如果我绘制这一百万组数据，它将是一种包含5个峰值的波形函数。所以我做的第一件事就是将这个csv文件导入到pandas dataframe中。我所能想到的就是我使用了太多的for循环，因此迭代数据需要太多的时间。下面是一个示例代码。(请注意，虽然这只是一个示例代码，但它应该足够清晰，以显示我所使用的for循环的结构。所以我想知道有没有更有效的方法来处理这样的大型数

浏览 9提问于2017-06-28得票数 0

2回答

大数据集的GPflow 2.0GP回归并行化

、、、、

我正在尝试在2D空间+ 1D时间上运行GP回归，其中有大约8000个观测值和一个具有4个Matern 3/2协方差函数的复合内核--超出了单个内核的处理能力。如果能够将GPR计算分布在多个节点上，而不是求助于变分GP，那就太好了。This github issue解释了如何在GPflow 1.0中执行多线程，但我并不是在寻找一种方法来并行化许多predict_f调用。相反，我想在一个大型数据</em

浏览 43提问于2020-01-07得票数 0

回答已采纳

2回答

如何不使用Nuget UI或命令行工具手动更新Nuget包

、、

我正在研究一个由250个项目组成的大型解决方案。在使用或Nuget命令行工具时，更新所有这些项目中使用的通用Nuget包需要2到3个小时。我正在寻找一种通过手动更新文件来更快地做到这一点的方法。中运行npm install。我也可以手动更新.csproj文件，例如通过查找和替换使用 <HintPath>..\..\packages\Th

浏览 3提问于2017-01-05得票数 4

回答已采纳

4回答

在Matlab中定义峰值宽度

我试图在Matlab中找到一些峰值，但是函数findpeaks.m没有宽度选项。我想要被检测到的峰值在球里。所有检测到的都在红色方块中。如你所见，它们的宽度很小。有什么帮助吗？

浏览 0提问于2013-07-02得票数 2

回答已采纳

点击加载更多