海量数据分析

、、

假设我们每天都有大约1e10行的日志文件，每一行都包含: ID号(小于15位数的整数)、登录时间和注销时间。一些ID可以登录和注销几次。如何计算已登录的ID总数？(每个ID不应计数两次或更多)计算在线用户人数最多的时间。

浏览 4提问于2013-04-14得票数 2

回答已采纳

1回答

在EMR上运行文件上载的群集步骤

、

我试图分析每周收到的日志数据。我想每周对附加的数据运行相同的步骤。长期运行的集群如何在集群上每周运行相同的步骤？如果我能在这样一个处理海量数据的场景中获得有关数据源类型的指导，那就太好了。

浏览 1提问于2018-09-26得票数 0

回答已采纳

1回答

存储大量数据；数据库、XML还是纯文本？

、、、

我想帮助我的朋友分析社交网络上的帖子(Facebook，Twitter，Linkdin等等)。以及一些网络博客和网站。我要用的语言是Python。

浏览 3提问于2015-04-05得票数 0

1回答

如何在无监督学习中使用特征选择和降维方法？

、、、

我成功地使用了监督学习和文本向量化、主成分分析和SelectPercentile特征选择来执行同样的任务。我用科学工具-学习包来实现同样的目标。我已经创建了dataset，其中将每个数据点作为python列表中的一行。因为我是一个新手，没有监督，所以我想问，我是否可以应用相同的降维工具，在监督(TFIDF和SelectPercentile)。

浏览 4提问于2016-05-27得票数 2

回答已采纳

2回答

帮助进行日志分析的软件？

、

嘿，伙计们，我有个小问题。我有3个巨大的日志，其中有1个服务器和2个客户端，它们都有时间戳，但只有当我能按时间顺序在UI中并排排列它们时，我才能很容易地理解它们。编辑:样机图像有蓝色的线分区，以毫秒为单位分隔时间。这只是为了可视化。

浏览 2提问于2010-10-26得票数 0

1回答

客户是一个广告公司，现阶段有10T的图片需要进行存储，有合适的方案介绍吗？

浏览 326提问于2019-04-12

1回答

图形可视化-海量数据的性能问题

、、、

我有来自不同DB来源的大量数据(甲骨文、蒙戈、卡桑德拉)，也有卡夫卡提供的数据。使用Tableau进行分析，面对海量数据的性能问题。因此，计划以其他方式存储数据，并使用Tableau进行可视化。选项1:-读取DB数据并将它们存储在S3中的Parquet文件中，然后使用AWS雅典娜进行分析，

浏览 2提问于2020-10-09得票数 0

1回答

(数据库？)设计:保存电子邮件模板(MailChimp?)

、、

我能想到的只有两个解决方案:半自定义模板：-应用程序提供HTML，用户可以更改CSS，我将这些CSS值存储在我的数据库中(因此，一个可能的键值解决方案可能是可能的)它们看起来并不都是完美的。将有大量的数据真的很快，这将减慢我的数据库时，将有很多用户使用这个模板系统。我还有其他选择吗？

浏览 2提问于2015-12-16得票数 0

1回答

利用MapReduce寻找非对称对

、、

我试图分析包含follower和followee对的社交网络数据。有人能向我解释如何使用MapReduce来从海量数据中找到不对称对吗？非常感谢。

浏览 2提问于2018-03-21得票数 0

回答已采纳

2回答

带堆的MapReduce排序

、、

我试图分析包含follower和followee对的社交网络数据。我想找到十大用户中使用MapReduce最多的用户。然而，对于这些数据，我不知道如何在分布式系统中对它们进行排序。非常感谢。

浏览 0提问于2018-03-20得票数 0

回答已采纳

1回答

何时使用多个DBMS

、、

我目前正在构建一个应用程序，它在我们用户的网站上运行分析并存储它。这使我能够分析所有数据，并为它们提供分析。由于从每个站点收集的数据都是静态的，并且每个站点之间差异很大，因此CouchDB似乎非常适合。我的第一个想法是使用MySQL来处理用户帐户，使用CouchDB来处理海量数据。从本质上讲，就是用锤子钉钉子，用螺丝刀钉螺丝。在这个时候，多个DBMS是个好主意吗？

浏览 1提问于2012-01-09得票数 1

回答已采纳

1回答

在sas中使用proc sql从仓库(oracle引擎)中提取数据时进行简单的随机采样

、、

我需要拉海量的数据，比如说600-700个变量从不同的表中的数据warehouse...now数据集在其原始形式将很容易达到150 on 79 MM行和我的分析目的，我只需要一百万rows...how我可以拉数据使用

浏览 0提问于2017-08-04得票数 0

8回答

物联网、大数据、云计算、人工智能之间有什么关系？

物联网、大数据、云计算、人工智能之间的关系如何？大数据、云计算，人工智能的发展，对物联网会有哪些帮助？

浏览 2574提问于2018-04-12

3回答

我花了很多时间阅读和观看人们谈论如何在他们的架构中使用为处理海量数据集和实时处理而设计的工具的视频。虽然我知道Hadoop/Cassandra/Kafka等工具是做什么的，但似乎没有人解释数据是如何从这些大型处理工具中获得的，以便在客户端/网页上呈现一些东西。根据我对大数据工具的理解，你不能用标准的web应用查询MySQL的方式来构建你的应用程序，考虑到流经这些工具的数据的大小，我可以理解这一点，然而，对于所有这些“实时数据分析”的说法，我

浏览 0提问于2017-09-07得票数 0

1回答

类似于SQL表的循环调度，用于跟踪最近的活动

每晚cronjob汇总每个用户的统计数据听起来并不合理。我知道过去我曾用RRD表这样跟踪网络使用情况，但这些只是BerkeleyDB的，而且每个统计数据必须有一个文件，这是行不通的，但这个想法似乎是我想要的。有没有我忽略的模式/最佳实践？

浏览 1提问于2011-12-31得票数 2

回答已采纳

1回答

使用python函数(Def)返回所需的行/列

当涉及到分析海量数据时，我认为创建一个函数来为每个分析选择所需的行/列会更有效率。我想用名为"data“的数据集实现的功能是， # None

浏览 19提问于2020-05-21得票数 0

回答已采纳

9回答

大数据和「数据挖掘」是何关系？

大数据是最近两年提出的，而数据挖掘上世纪就提出来了。我想知道的是，现在大数据的背景下，采用的数据挖掘算法跟之前传统的数据挖掘算法有什么本质上的不同？如果没有不同，那又是什么关系呢？

浏览 1439提问于2018-04-03

4回答

将大量记录加载到内存中

、、、、

每天有50万条记录，每条记录由大约500字节组成，我们必须分析一年的记录。为了加快处理速度，最好一次加载所有记录，但我们不能这样做，因为它需要大约88 GB的内存。将来记录的数量可能会超过。组，因为我们将这些记录作为组进行分析，并且有25000个组，这可能也会超过。我们可以一次加载一个组，分析组，丢弃并加载another....But这会导致进程非常慢，需要访问数据库服务器25000次！。使用内存中可用数据的单线程进程比使用数据库的多线程进程(线程数32)要快得多。我们有没有什么方法可

浏览 3提问于2013-01-08得票数 0

1回答