数据分析和大数据_数据湖分析新春大促_日志数据分析大促 - 腾讯云开发者社区

我在文本文件中有一个相当大的数据集，大约有2500万行和200列(它们都是数字的)。我想对它们进行一些统计和数据分析(生存分析)。将数据导入SAS的最快方法是什么？我的PC需要多少内存才能运行这么大的数据集？

浏览 5提问于2011-02-12得票数 3

回答已采纳

1回答

3+的区别

、

Google Analytics Reporting、Google Analytics API和Google Analytics数据API之间有什么区别？我需要的是报告一个第三方网站/帐户的数据，但听起来所有这些API都是用来报告数据的。你能告诉我吗？我一直在看他们的医生，他们听起来还是一样的。

浏览 10提问于2022-08-30得票数 1

回答已采纳

1回答

Google Analytics/BigQuery数据导出

、、

我们有一个要求，我们想要从谷歌分析->大查询和从大查询到本地服务器的数据。将数据导出到SFTP服务器的正确方法是什么？提前感谢

浏览 0提问于2018-07-04得票数 0

1回答

为什么在模拟映射中O(n^2)比O(n)快？

、、

给定两个列表A和B，B是A的一个列，B是A的一个列，B是通过随机化A中元素的顺序来生成的。我们想要找到一个指数映射P，从A到B，A映射Pi = j表示A中的ith元素出现在B中的索引j处，这些列表A和B可能包含重复的元素。

浏览 1提问于2018-05-15得票数 2

回答已采纳

4回答

用于自定义协议的网络流量分析的工具

、、

我需要分析一个大的libpcap转储文件，以计算会话时间和每个会话的数据包数量的平均值和标准差。使用Wireshark可以很容易地分析端点之间的TCP会话，但摘要包括所有TCP数据包(大量的SYN、ACK和FIN)，这会弄乱数据。有没有其他工具可以做这种分析？

浏览 14提问于2009-11-08得票数 0

1回答

使用Elasticsearch作为主数据库而不是MongoDB的方案

、

我们目前正在为我们的一个“大规模数据”产品使用MongoDB。简单来说，我们使用Mongo来存储大量的社交媒体数据，比如tweet/post/hashtag等等。因此，使用案例是社交媒体分析。到目前为止，我们使用MongoDB面临的唯一问题是全文搜索能力和聚合性能。文档的数量将在2500万左右，我们将在单个实例上使用此数量。此外，我们的大多数分析都是在整个集合上进行的(我们通常没有太多过滤器来减少分析数据集)。最近，我们开始关注Elastic Se

浏览 0提问于2016-07-26得票数 2

2回答

哪个谷歌云存储最适合我的数据

、、、、

随着数据呈指数增长，Mysql的速度越来越慢。系统处理大数据分析。我需要具有最短查询时间的IO密集型数据库。目前，我已经构建了mysql数据库，并且根据应用程序的要求，我需要非常频繁地查询数据以获取分析数据和原始数据。Google建议我使用Cloud，但是没有任何服务方面的经验，我对此并不确定。请为我的应用程序推荐最合适的google，包括云扳手、云sql、云数据存储、大查询<em

浏览 4提问于2017-08-11得票数 1

回答已采纳

2回答

概念API快速删除和重新填充整个DB

、

背景我目前正在使用python脚本获取分析器数据，并将其上传到概念DB中。目前，我读取每一行，获取用于更新该行数据的ID --但这太慢了:更新100行需要超过30秒。我想知道是否有一种方法可

浏览 8提问于2022-09-05得票数 0

1回答

如何访问Firebase Analytics的数据受众

、、、

我需要大查询用户的任何日志或数据，如何在事件中以非手工方式查阅？我需要火基分析组和观众数据

浏览 5提问于2020-05-27得票数 0

回答已采纳

1回答

ESRI提供了谷歌BigQuery无法提供的功能，以及如何将这两种工具结合使用？

、、、

目前，我正在寻找支持大数据地球空间分析的大数据技术。我来到ESRI，发现它主要支持地球空间数据分析和可视化。然而，目前，除了需要许可的ArcGIS GeoAnalytics服务器之外，它们还没有对大数据地理空间分析的广泛支持。同时，我发现Google BigQuery是多么强大，它最近提供了对地理空间处理和分析的支持(为您使用的东西付费，每秒)。我想知道的是:我应该选择哪个工具进行地理空间大数据处

浏览 5提问于2019-10-28得票数 0

回答已采纳

1回答

以编程方式从RData文件集合中提取对象

、、

我们在生产环境中工作，由API调用组装的大型数据集保存为RData文件，以保留整个环境和随后的数据摘要。RData文件非常大，包含多个数据对象，这些对象使用具有相似名称和结构的标准分析工作流生成。我正在寻找一种干净的方法来遍历RData文件的集合，从每个文件中提取一个命名的对象，然后组装成一个AllCohorts数据文件进行分析。

浏览 5提问于2021-01-30得票数 0

回答已采纳

2回答

针对google bigtable或任何google产品的timeseries数据模式设计

、

我在一个项目中工作，在这个项目中，我必须每天存储与每个用户的用户活动相关的事件，以便以后分析。我将获得带有时间戳的事件流，稍后将在此数据上运行数据流作业以进行分析，以获取每个用户的统计数据。我正在探索大表来存储这些数据，其中时间戳将作为每一行的关键字，稍后我将运行范围查询来获取单日数据并对其进行处理。但是，在浏览了几个资源之后，我发现有了时间戳的行键，大表就可以进入热点了。用例:用例是我有用户活动数据，比如印象<em

浏览 2提问于2020-03-31得票数 0

1回答

excel中排序数据点的不同对Excel中回归结果的影响

、

我试着用大约91个数据点进行回归分析。当我最初进行回归分析时，我得到的R值为0.366733。随后，我对数据点从小到大进行了排序，然后进行了回归分析。我的新R值是0.04323。原始数据点的排列顺序是否会影响回归分析

浏览 0提问于2018-10-20得票数 2

1回答

以存储帐户为数据层的Azure数据库

、、

我刚刚开始进行数据分析，需要使用来分析大容量的数据。在计划使用Databricks笔记本进行分析时，我遇到了不同的存储选项来加载数据( a) DBFS --来自Databricks的默认文件系统b) Azure data Lake (ADLS)和c) Azure看起来，项目(b)和(c)可以挂载到工作区中，以检索用于分析的数据。在Databricks上下

浏览 0提问于2021-05-26得票数 1

回答已采纳

3回答