大数据分析的作用_数据分析大数据分析_大数据分析 - 腾讯云开发者社区

、、、

我是一名准PhD (CS)学生。在我的MS研究期间，我在异常检测领域工作过。现在，我有两个主要的和最近出现的领域可供选择，即深度神经网络和大数据分析。然而，我必须选择一个作为我未来的工作领域。我想把其中一个领域和我以前的工作联系起来，那就是异常检测。此外，我还要问两个问题：深层神经网络与大数据分析，哪一种更适合异常检测？深层神经网络与大数据分析相比，未来还有更大的发展空间吗？

浏览 4提问于2017-06-06得票数 0

回答已采纳

1回答

数据分析中的数据量是否重要？

、、、、

因此，我想知道数据分析是否可以通过使用少量的数据来完成，比如存储在database.If中的100到1000个记录--我这样做了--那么它是数据分析吗？有人说，如果你分析的是少量的数据，那根本就不是数据分析。所以我把数据分析和大数据混淆了。有人能回答我这个问题吗？我要提前感谢你

浏览 0提问于2019-02-01得票数 0

回答已采纳

1回答

大数据分析参考文献

我正在寻找一个好的入门书或课程的大数据分析。在实际应用方面，我对在R中使用大数据工具特别感兴趣。我想要一本书，但欢迎其他参考资料。谢谢!

浏览 0提问于2016-11-21得票数 1

回答已采纳

9回答

R语言是否适合大数据

、

R有许多针对数据分析(如JAGS、BUGS、ARULES等)的库，并在流行的教科书中被提到，如: J.Krusche，进行贝叶斯数据分析；B.Lantz，“机器学习与R”。我已经看到了5TB的指南，将数据集视为大数据。我的问题是:R是否适合在大数据问题中通常看到的数据量？在这样的数据集中使用R时是否使用策略？

浏览 0提问于2014-05-14得票数 55

回答已采纳

1回答

500G 在哪儿能找到资料？

、、、、

500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享在哪儿能下载到资料，在线等，挺急的~，感谢各位大佬~

浏览 248提问于2019-05-10

2回答

最佳编程语言

、、

我精通纯粹的统计学。我不懂任何编程语言。这是我应该学习的最好的编程语言，它将有助于提高我在数据分析方面的职业生涯。我对概念只有理论知识。请推荐一项技能，我应该发展成为一名数据分析员。

浏览 0提问于2018-07-06得票数 1

2回答

NoSQL数据库在数据科学中的应用

、、

如何使用NoSQL数据库(如MongoDB )进行数据分析？它们中有哪些特性可以使数据分析更快、更强大？

浏览 0提问于2014-07-21得票数 21

回答已采纳

3回答

我读过很多关于不同行业如何使用大数据分析的博客文章。但这些文章大多没有提到这些公司使用了什么样的数据。数据有多大？他们用来处理数据的工具是什么？他们面临的问题是什么，他们得到的数据是如何帮助他们解决问题的。他们如何选择工具\技术来满足他们的需要。他们从数据中识别出了什么样的模式&他们从数据中看到了什么样的模式。我想知道是否有人能为我提供所有这些问题的答案或一个链接，至少回答一些问题。我正在寻找现实世界的例子。如果有人能分享金融业是如何利用大数据分析的，那就太好了。

浏览 0提问于2014-06-11得票数 14

2回答

处理大数据和数据可视化的最佳工具

、、

我目前正在做(开始)我的大数据和数据可视化项目。所以请让我知道有没有最好的软件来处理大数据和数据可视化，即数据分析。

浏览 3提问于2013-01-17得票数 0

回答已采纳

2回答

DataOps是什么？

、

这个网站已经有了很好的答案，比如什么是DevOps和什么是SecOps。随着时间的推移，我逐渐认识到，当敏捷方法的哲学应用于运营时，意见就诞生了DevOps。SecOps也是如此。那么，将敏捷方法应用于大数据和数据分析的DataOps会是什么样子呢？这与敏捷软件开发和DevOps有何相似之处？

浏览 0提问于2019-11-13得票数 3

6回答

facebook数据泄漏：大数据分析竟能操控美国大选？

、、、

近日，facebook的数据泄露事件引起广泛讨论，罪魁祸首剑桥分析公司通过数据分析来帮助企业和政党改变受众行为。他甚至声称“只要了解用户的十个赞，就能比用户的同事更准确地评价用户”。那么大数据分析真的有他们所说的那么强吗？这是怎么样做到的？公众的个人隐私又该如何保护？

浏览 856提问于2018-03-26

1回答

我可以在Azure环境之外使用Azure Synapse功能吗？

、、

论坛，我目前正在研究Azure Synapse作为迁移我们的on数据架构的一种选择。我对它提供的功能感到兴奋- SQL池、火花池和附带的笔记本。我知道Synapse可以在一个数据平台中发挥作用，我的数据科学家和数据分析者可以利用它的功能随意提供见解。然而，我的团队所做的大部分工作是创建数据产品。我们目前有一个kubernetes集群，它有几个独立的API，在我们软件的更大的整体中执行数据科学操作。它们可以被认为是微型服务。K8S集群中的微服务(通常是python +一些python包+ FastAPI)通常通过使用ODBC连接器从SQL-server获取所需的数据。现在我的问题是，Syn

浏览 3提问于2022-03-31得票数 1

回答已采纳

1回答

大数据和小数据的优缺点？

我在寻找更深入的答案。我知道基础知识--小数据分析起来更快，使用大数据你会有更多的能力，等等。但我想知道更多(也许是关于因果推断？)关于每种方法的优点和缺点。谢谢!

浏览 3提问于2017-10-11得票数 1

1回答

长时间运行的进程和托管提供商？

、、、

我有一个运行了好几个小时的python数据分析脚本，当它在我的桌面上运行时，随着粉丝们的狂热，我意识到我可以在bkgnd中的一个托管账户上远程运行它，然后让它破解。但我想知道--托管提供商通常不赞成这样的做法吗？他们是否假设我所有的CPU/内存使用都是突发性的--来自我的Apache2实例的使用率，一个运行了12小时的进程会被他们的sysop杀死？或者他们会认为我是在为使用付费，所以你自己动手吧？我的脚本及其数据是自包含的，没有使用任何网络或数据库资源。有这方面的经验吗？

浏览 8提问于2015-11-12得票数 0

2回答

熊猫(Python)阅读和工作Java BigInteger/大数

、、、

我有一个数据文件(csv)，其中包含哈希值。其中一些会有长达80个字符。我希望用Python阅读它们，以完成数据分析任务。有没有一种在python中导入数据而不丢失信息的方法？编辑:我已经尝试了注释中提出的实现，但这对我不起作用。csv文件中的示例数据为：77241756221441762028881402092817125017724447303212139981668021711613168152184106

浏览 1提问于2015-07-12得票数 3

回答已采纳

2回答

hadoop与mongodb和hadoop对mongodb

、、

我试图理解mongoDB和Hadoop之间的关键区别。我理解mongoDB是一个数据库，而Hadoop是一个包含HDFS的生态系统。使用这两种技术处理数据的方式有一些相似之处，但也有很大的不同。我不明白为什么有人会在Hadoop集群上使用mongoDB，主要是mongoDB比Hadoop具有什么优势。两者都执行并行处理，两者都可以与Spark一起用于进一步的数据分析，那么什么是一个比另一个的增值。现在，如果要将两者结合起来，为什么要在mongoDB和HDFS中存储数据呢？MongoDB有map/reduce，所以为什么要将数据发送到hadoop进行处理，而且两者都与Spark兼容。

浏览 1提问于2019-05-07得票数 0

回答已采纳

2回答

大数据到哪里去了，它是如何存储的？

、、、

我试图掌握大数据，主要是如何管理大数据。我熟悉数据管理和数据生命周期的传统形式；例如：收集的结构化数据(如网页表格) 存储在数据库服务器RDBMS中的表中的数据数据清理后，ETL进入数据仓库数据使用OLAP多维数据集和其他各种BI工具/技术进行分析。但是，在大数据的情况下，我对第2点和第3点的等效版本感到困惑，主要是因为我不确定每个大数据“解决方案”是否总是涉及使用NoSQL数据库来处理和存储非结构化数据，以及数据仓库的大数据等效是什么。据我所见，在某些情况下，NoSQL并不总是被使用，而且可以完全省略--这是真的吗？对我来说，大数据生命周期就是这样的：

浏览 7提问于2017-04-20得票数 7

回答已采纳

1回答

如何在大数据和网络分析中起步

、、、、

我目前对大数据分析和网络分析感兴趣，但我不知道如何开始和从哪里开始。我试着上网看看，但有些对我来说是先进的。走这条路之前，我首先需要的是统计学和数学方面的技能和知识吗？我目前的计划是每个周末参加在线课程，因为我目前在工作日做软件助理工程师，练习大数据所需的编程语言，比如R。我已经获得了计算机科学学位，所以熟悉一些统计和数学方法并不是个问题。任何建议和意见都是非常感谢的！对于那些已经有经验的人来说，你的经验是怎样的，你最擅长的是什么？

浏览 3提问于2016-04-01得票数 0

回答已采纳

1回答

SQLite的尺寸限制和性能

、、

我已经研究过一些数据库，比如MySQL，但我从来没有专门处理过数据库。我正在进行一个项目，我们打算使用SQLite (出于一些原因:小型、轻量级、快速等)，然后我对它有一些疑问： SQLite支持多少千兆字节的数据？有限度吗？(我将为每个用户提供一些大型数据表(例如，18列X 80.000行)) 读取大量数据快吗？(例如，18列X 80.000行) 关于SQLite，还有其他相关的信息我需要知道吗？(注:我将在Windows和OS上使用它) 附加信息我正在开发的软件是一个数据分析软件，我只需要使用DB来保存使用一些传感器从用户那里收集到的数据。我在项目中使用QT5.3.2 (C++)。

浏览 0提问于2016-12-02得票数 0

1回答

自动化客户端自注册的原始导出数据清理-格式始终不同

、、、、

所以这是一个比较普遍的问题。我是一家初创公司的数据分析师。我的主要流程包括获取客户拥有的现有客户数据，并将其清理/标准化以适应我们的平台，这是我们自注册过程的一部分。我们团队的一名成员从他们正在转换的系统中导出他们的数据，或者，如果他们在内部跟踪数据，我们会收到他们用来跟踪数据的Excel日志。它总是采用不同的格式，并且需要广泛的清理(平均1分钟/条)。我们通常是一个大表(.xlxs格式)，在清理之后，将它拆分为四个.csv文件；我们在我们的平台上以四个表的形式加载它们。我觉得我已经很好地优化了流程，包括流程步骤和excel函数(if、concat、text-to-column等)的清理。我

浏览 0提问于2017-09-29得票数 0

1回答

服务器间快速传输大数据

、、、

这是一个常见的问题，但在谷歌上搜索会产生很多垃圾。随着数据量越来越大，加上处理能力和云能力，我们看到对快速数据传输技术的需求越来越大，这些技术能够通过在不同的服务器/客户端之间传播/移动/共享数据来释放所有这些可用数据的能力。在我们的例子中，我们记录实时二进制数据(每天50吉)，我们需要每天将其上传/下载到/从订阅者(是的，所有这些都是每个订阅服务器本地需要的，用于计算和各种数据分析)。因此，简单地说，今天有哪些选择可以在远程windows服务器(VPS，Cloud)之间快速传输大量数据(VPS，Cloud，具有“相当一致的”带宽-(光纤除外)) 这是一个悬而未决的问题。不管协议是什么，

浏览 3提问于2012-07-19得票数 5

回答已采纳

1回答

ESRI提供了谷歌BigQuery无法提供的功能，以及如何将这两种工具结合使用？

、、、

目前，我正在寻找支持大数据地球空间分析的大数据技术。我来到ESRI，发现它主要支持地球空间数据分析和可视化。然而，目前，除了需要许可的ArcGIS GeoAnalytics服务器之外，它们还没有对大数据地理空间分析的广泛支持。同时，我发现Google BigQuery是多么强大，它最近提供了对地理空间处理和分析的支持(为您使用的东西付费，每秒)。我想知道的是:我应该选择哪个工具进行地理空间大数据处理、分析和可视化？哪个工具(ESRI和BigQuery)更适合用于什么？我想在非常大的时间地理空间数据集上运行复杂的查询，最后在地图上可视化结果。请注意，我刚刚开始了对地理空间大数据处理的研究，

浏览 5提问于2019-10-28得票数 0

回答已采纳

2回答

与云中数据分析(数据清理)相关的成本

、、、、

我是数据分析员。我的公司正在将所有的数据科学转移到云提供商(可能是Azure，GCP，AWS)。所有的数据科学编程工具，如木星笔记本，都将安装在云环境中(不会在本地安装Python，也不会在笔记本电脑上安装木星笔记本)。在我的大部分工作中，我将直接从一个前提数据库中读取/吸收关系数据库表。而且，我的大部分数据分析工作不需要任何GPU实例来进行数据处理。有时，我也做一些简单的研究或实验数据分析编程，例如使用木星笔记本进行数据清理，而不需要使用GPU实例。我想知道，在我的任务都不使用GPU的情况下，我的公司在他们的数据科学云计算平台上是否有可能进行这样的活动，而不用支付任何每次使用的费用或不必

浏览 2提问于2021-10-17得票数 0

回答已采纳

1回答

亚马逊Aurora RDS的大数据分析

、、、

我有一张极光表，里面有五亿张唱片。我需要执行大数据分析，比如查找两个表之间的差异。到目前为止，我一直在使用文件系统上的HIVE来完成这项工作，但是现在我们已经将所有文件行插入到Aurora中。但仍然每月我需要做同样的事情，找到差异。那么，对此，什么是最好的选择？将Aurora数据作为文件导出回S3，然后对其运行单元查询(将所有Aurora行导出到S3需要多长时间)？我可以在Aurora表上运行蜂箱查询吗？(我猜Aurora上的蜂箱不支持) 在Aurora上运行spark (性能如何)？或者有什么更好的方法。

浏览 1提问于2018-10-09得票数 0

1回答

AWS弹性MapReduce和AWS红移有什么区别？

、、

我看到AWS弹性MapReduce和AWS都使用集群结构，并且可以用于数据分析。它们的不同用例是什么？支持与多种应用程序的客户端连接，包括商业智能(BI)、报告、数据和分析工具。 (Amazon )是一个托管集群平台，它简化了在AWS上运行大数据框架(如Apache和Apache )来处理和分析大量数据的过程。

浏览 1提问于2016-06-04得票数 15

回答已采纳

2回答

最佳数据科学编程语言

、

我正在学习JS，HTML和CSS，但我怀疑JS很擅长数据分析。那么，你们会推荐我学什么来开始我在数据科学的“事业”呢？处理数据的最佳编程语言是什么？我喜欢统计和编程，所以我觉得这会很有趣。

浏览 0提问于2017-06-21得票数 2

回答已采纳

2回答

弹性搜索查询过滤

、、、

我已经上传了一些数据到弹性服务器，作为“工作id，工作地点，作业req，作业desc”。我的索引是my_index和doctype = job_list。我需要编写一个查询来找到一个特定的术语，比如“数据分析员”，它应该会给我返回与“作业位置”这样的指定字段匹配的结果。例如，数据分析员术语在文档中的匹配，我需要所有的“工作地点”信息。任何帮助。我试过凝乳。但不起作用。如果是用蟒蛇做的好。

浏览 0提问于2014-11-27得票数 0

回答已采纳

3回答

如何使用python pandas在本地系统Jupyter Notebook中读取两个更大的5 5GB文件？如何在本地连接两个数据帧进行数据分析？

、、、、

如何使用python pandas在本地系统Jupyter Notebook中上传两个大(5 5GB)的csv文件。请建议任何配置来处理用于数据分析的大型csv文件？ Local System Configuration: OS: Windows 10 RAM: 16 GB Processor: Intel-Core-i7 代码： dpath = 'p_flg_tmp1.csv' pdf = pd.read_csv(dpath, sep="|") Error: MemoryError: Unable to allocate array 或 pd.read_c

浏览 1提问于2020-01-24得票数 4

5回答

机器学习概述

、、

这可能不是要问的问题类型，而只是想知道其他人在大型企业环境中实现机器学习算法时需要考虑哪些因素。我的目标之一是研究行业机器学习解决方案，可以根据我的公司的具体需要。我是我的团队中唯一有数学背景的人，而且以前读过一些机器学习算法的背景资料，我的任务是解释/比较这个行业的机器学习解决方案。从我在谷歌上收集到的信息来看，似乎：机器学习和预测分析并不完全一样，所以当一个公司提供预测分析软件和机器学习软件时，有什么本质上的区别呢？(例如IBM预测分析相对于Skytree Server) 很多流行的术语经常被纠缠在一起，特别是关于大数据、Hadoop、机器学习等等。有人能澄清这些术语之间的区别吗？根据

浏览 8提问于2013-04-18得票数 2

2回答

用于数据分析的特定postgresql服务器配置

、、

如果您使用postgresql数据库专门用于数据科学部门和数据分析目的，那么是否有关于使用postgresql.conf文件优化服务器性能的提示？或者性能调优本身是不可知的，而且你会用它做什么并没有什么真正的区别，因为‘这都是关于提取数据的’？这是一个相当模糊的问题，我没有找到答案(在许多关于数据科学的文章中)。

浏览 1提问于2018-10-12得票数 3

回答已采纳

1回答

将物联网数据存储在MongoDb中

、

我目前正在向我的MongoDB传输物联网数据，它运行在Docker Container(托管在亚马逊网络服务中)中。每天我都会得到几千个数据点。我将使用这些收集的数据进行一些密集的数据分析和ML，这将每天运行。那么，大数据通常就是这样存储的吗？行业标准和最佳实践是什么？

浏览 3提问于2021-03-12得票数 2

1回答

如何在没有内存错误的情况下使用Python或R对大数据进行聚类？

、、、

我试图用大约1,100,000个观测值来聚类一个数据集，每个观测值都有三个值。在R中，代码非常简单 df11.dist <-dist(df11cl)，其中df11cl是一个具有三列和1,100,000行的数据格式，该数据帧中的所有值都是标准化的。我得到的错误是：Error: cannot allocate vector of size 4439.0 Gb 关于类似问题的建议包括增加RAM或分块数据。我已经有了64‘t内存，我的虚拟内存是171’t，所以我不认为增加RAM是一个可行的解决方案。此外，据我所知，分层数据分析中的数据块会产生不同的结果。因此，使用数据样本似乎是不可能的。我

浏览 2提问于2019-10-26得票数 1

回答已采纳

1回答

marklogic中的数据分析/分析工具

、

我正在处理一个用例，在这个用例中，我将以csv/excel/pdf格式“按原样”将源数据加载到marklogic。稍后，我们需要使用marklogic中的一些工具进行数据分析/分析。在google上搜索，我在一些博客中看到一个名为“数据分析器”的工具。没有关于数据分析器工具的信息或GitHub项目。如果任何人知道数据分析器或marklogic中的任何数据分析/分析工具，请给予帮助。

浏览 0提问于2018-06-05得票数 0

1回答

关于向用户提供数据的建议

、、、、

我是数据分析解决方案的初学者，并且正在从事一个将我们的数据解决方案迁移到Azure的项目，Azure datalake、数据工厂、databricks将成为管道。但是很难选择正确的解决方案来可视化数据(用于创建仪表板的自助服务)并允许用户下载屏蔽报告(Excel，txt文件)以进行外部集成。你们有什么建议吗？目前，我们正在使用业务对象企业(，BOE)和水晶报告，但我们希望找到一种新的、现代的方法来实现这一目标。

浏览 13提问于2022-04-01得票数 0

7回答

用于数据分析的Python IDE

、、、

Python可以用于许多任务。我想使用Python进行数据分析。哪些Python IDE特别适合数据分析任务。有关特定于数据分析的集成开发环境的参考，请参阅R语言的RStudio。

浏览 3提问于2014-10-26得票数 0

1回答

具有有效贷款数据的hadoop用例

、

我有一些重要的数据集为贷款收购在TXT文件注-数据是我在过去3年的第一季度-第四季度。此外，请在图像文件中查找获取文件的每一列的字段描述。 1)请您帮助我生成-一些有效的逻辑业务用例，我想用HDFS和Mapreduce编程来实现。因为大多数示例使用的是与单词计数和天气数据分析相关的大小写。要获取数据文件，只需在数据-档案链接- loanperformancedata.fanniemae.com/lppub-docs/acquisition-sample-file.txt 100009503314|CORRESPONDENT|WELLS FARGO银行，N.A.|3.75|320000

浏览 2提问于2014-06-16得票数 0

4回答

我应该使用哪些初始步骤来理解大型数据集，以及应该使用哪些工具？

、、、

注意:在机器学习方面，我是一个完全的初学者，但我渴望学习。我有一个很大的数据集，我试图在其中找到模式。数据之间可能没有关联，无论是与已知变量，还是包含在数据中但我还没有意识到的变量实际上都是相关的变量。我猜这将是数据分析领域中一个常见的问题，所以我有几个问题： “灵丹妙药”是将所有这些数据扔到一个统计/数据分析程序中，然后对数据进行处理，寻找已知/未知的模式，试图找出它们之间的关系。是否适合SPSS，或者是否有其他更适合的应用程序。我应该学习像R这样的语言，并弄清楚如何手动处理数据。这难道不是像我必须手动指定什么以及如何分析数据那样去寻找关系吗？专业的数据采掘者将如何处理这一问题，S/

浏览 0提问于2014-08-19得票数 10

回答已采纳

1回答

DataPrep中完整数据的数据分析

我需要对数据代表中的完整数据进行数据分析。我还想确认数据分析中的数据分析是在样本数据上完成，还是在我们拥有的完整数据上完成？

浏览 11提问于2022-05-09得票数 0

1回答

如何在azure Databricks中自定义窗口小部件的样式，如下拉列表的宽度？

、、

如何控制用于数据分析的azure databricks notebooks中小部件的宽度，自定义下拉框的宽度。我试图安装python模块ipywidgets，但它不起作用，而且我没有看到任何定制小部件的选项。https://docs.databricks.com/user-guide/notebooks/widgets.html

浏览 11提问于2019-01-22得票数 2

回答已采纳

1回答

使用Spark将Cassandra数据持久化到S3的最简单方法

、、、、

我正在尝试找出如何最好地存储和检索数据，从S3到Cassandra，使用Spark:我在Cassandra中存储了日志数据。我使用DSE运行Spark来执行数据分析，它工作得很好。日志数据每天都在增长，在任何给定的时间，我只需要在Cassandra中使用两周。我仍然需要在某个地方存储较旧的日志至少6个月，经过研究，带有Glaciar的S3看起来是最有希望的解决方案。我想使用Spark来运行一个日常作业，该作业查找第15天的日志，将它们从Cassandra中删除，然后将它们发送到S3。我的问题是:我似乎无法确定正确的格式来将Cassandra行保存到文件中，这样有一天我可能会将文件重新加载到Sp

浏览 0提问于2015-07-18得票数 4

2回答

在R中将big.matrix作为data.frame

、、、、

我最近开始使用R进行数据分析。现在，我在对大型查询数据集进行排序时遇到了一个问题(在ASCII模式下约为1 GB，在二进制模式下超过我笔记本电脑的4 GB RAM )。对此数据集使用bigmemory::big.matrix是一个很好的解决方案，但在gbm()或randomForest()算法中提供这样的矩阵'm‘会导致错误： cannot coerce class 'structure("big.matrix", package = "bigmemory")' into a data.frame class(m)输出以下内容： [1]

浏览 18提问于2011-11-30得票数 7

回答已采纳

1回答

产生警告的位置函数

、

在数据分析方面，我是R的初学者。在这里，我不得不停下来，因为我无法定位我的任何数据。会出现一个警告，但没有任何displays.Its (与位置函数一样)不起作用。 qplot(cty,hwy,data=mpg,position = "jitter") Warning message: `position` is deprecated

浏览 0提问于2017-03-05得票数 2

回答已采纳

2回答

我是否需要一个强大的编程背景才能成为一名数据分析员？

、

我正在考虑成为一名数据分析员，我想知道编程知识是否是这方面的必要条件。我数学很强，但编程经验很少。是否所有的数据分析人员都有很强的编程技能(R、SAS、SQL、Python等)，还是取决于您的数据分析人员的类型而有所不同？

浏览 0提问于2016-09-03得票数 -2

回答已采纳

1回答

用于数据分析的Python

、

在python中，有哪些数据分析包和特性可以帮助进行数据分析？

浏览 0提问于2015-02-10得票数 0

回答已采纳

3回答

数据分析与数据分析的区别

、

当我们说数据分析和数据分析时，我们指的是什么？

浏览 0提问于2023-04-11得票数 0

2回答

快速Hadoop分析(Cloudera Impala vs Spark/Shark vs Apache Drill)

、、

我想对HDFS中的数据进行一些“近乎实时”的数据分析(类似OLAP)。我的研究表明，与Apache Hive相比，上述三个框架报告了显著的性能提升。有没有人有过这两种方法的实际经验？不仅要考虑性能，还要考虑稳定性？

浏览 3提问于2013-06-25得票数 43

回答已采纳

3回答

数据科学家和数据分析员之间有什么区别？

https://www.datacamp.com/community/tutorials/learn-data-science-infographic https://www.datacamp.com/community/blog/data-engineering-vs-data-science-infographic 这些链接几乎包含了所有内容，但并不包含数据科学和数据分析之间的区别。数据分析是数据科学工作流程的一部分吗？数据分析是数据科学的一个子集吗？

浏览 0提问于2018-05-03得票数 0

回答已采纳

3回答

如何从“大数据”转到网页？

、、、

我花了很多时间阅读和观看人们谈论如何在他们的架构中使用为处理海量数据集和实时处理而设计的工具的视频。虽然我知道Hadoop/Cassandra/Kafka等工具是做什么的，但似乎没有人解释数据是如何从这些大型处理工具中获得的，以便在客户端/网页上呈现一些东西。根据我对大数据工具的理解，你不能用标准的web应用查询MySQL的方式来构建你的应用程序，考虑到流经这些工具的数据的大小，我可以理解这一点，然而，对于所有这些“实时数据分析”的说法，我找不到任何解释来解释实际的分析是如何以图表/表格等形式呈现在某人面前的？

浏览 0提问于2017-09-07得票数 0

1回答

如何共享从其他数据集中查询其他视图的授权BigQuery视图？

、、

我有一个bigquery视图，希望与数据分析人员共享，以便他们可以通过data访问其数据。此共享视图对另一个数据集中的私有视图进行查询，而后者又对另一个数据集中的表进行查询，如下图所示：为了实现这一点，我遵循了教程中提到的步骤将数据分析员分配给IAM中的项目级bigquery.user角色。授权shared_view上的private_dataset_1 授权数据分析组访问具有shared_dataset数据查看器角色的BigQuery 但是，由于权限访问不足，从数据分析人员帐户查询shared_view一直失败。

浏览 1提问于2019-06-21得票数 3

回答已采纳