腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
海量
数据
分析
、
、
假设我们每天都有大约1e10行的日志文件,每一行都包含: ID号(小于15位数的整数)、登录时间和注销时间。一些ID可以登录和注销几次。如何计算已登录的ID总数?(每个ID不应计数两次或更多)计算在线用户人数最多的时间。
浏览 4
提问于2013-04-14
得票数 2
回答已采纳
1
回答
在EMR上运行文件上载的群集步骤
、
我试图
分析
每周收到的日志
数据
。我想每周对附加的
数据
运行相同的步骤。长期运行的集群 如何在集群上每周运行相同的步骤?如果我能在这样一个处理
海量
数据
的场景中获得有关
数据
源类型的指导,那就太好了。
浏览 1
提问于2018-09-26
得票数 0
回答已采纳
1
回答
存储大量
数据
;
数据
库、XML还是纯文本?
、
、
、
我想帮助我的朋友
分析
社交网络上的帖子(Facebook,Twitter,Linkdin等等)。以及一些网络博客和网站。我要用的语言是Python。
浏览 3
提问于2015-04-05
得票数 0
1
回答
如何在无监督学习中使用特征选择和降维方法?
、
、
、
我成功地使用了监督学习和文本向量化、主成分
分析
和SelectPercentile特征选择来执行同样的任务。我用科学工具-学习包来实现同样的目标。我已经创建了dataset,其中将每个
数据
点作为python列表中的一行。因为我是一个新手,没有监督,所以我想问,我是否可以应用相同的降维工具,在监督(TFIDF和SelectPercentile)。
浏览 4
提问于2016-05-27
得票数 2
回答已采纳
2
回答
帮助进行日志
分析
的软件?
、
嘿,伙计们,我有个小问题。我有3个巨大的日志,其中有1个服务器和2个客户端,它们都有时间戳,但只有当我能按时间顺序在UI中并排排列它们时,我才能很容易地理解它们。编辑:样机图像有蓝色的线分区,以毫秒为单位分隔时间。这只是为了可视化。
浏览 2
提问于2010-10-26
得票数 0
1
回答
客户是一个广告公司,现阶段有10T的图片需要进行存储,有合适的方案介绍吗?
浏览 326
提问于2019-04-12
1
回答
图形可视化-
海量
数据
的性能问题
、
、
、
我有来自不同DB来源的大量
数据
(甲骨文、蒙戈、卡桑德拉),也有卡夫卡提供的
数据
。使用Tableau进行
分析
,面对
海量
数据
的性能问题。因此,计划以其他方式存储
数据
,并使用Tableau进行可视化。选项1:-读取DB
数据
并将它们存储在S3中的Parquet文件中,然后使用AWS雅典娜进行
分析
,
浏览 2
提问于2020-10-09
得票数 0
1
回答
(
数据
库?)设计:保存电子邮件模板(MailChimp?)
、
、
我能想到的只有两个解决方案:半自定义模板:-应用程序提供HTML,用户可以更改CSS,我将这些CSS值存储在我的
数据
库中(因此,一个可能的键值解决方案可能是可能的)它们看起来并不都是完美的。将有大量的
数据
真的很快,这将减慢我的
数据
库时,将有很多用户使用这个模板系统。 我还有其他选择吗?
浏览 2
提问于2015-12-16
得票数 0
1
回答
利用MapReduce寻找非对称对
、
、
我试图
分析
包含follower和followee对的社交网络
数据
。有人能向我解释如何使用MapReduce来从
海量
数据
中找到不对称对吗? 非常感谢。
浏览 2
提问于2018-03-21
得票数 0
回答已采纳
2
回答
带堆的MapReduce排序
、
、
我试图
分析
包含follower和followee对的社交网络
数据
。我想找到十大用户中使用MapReduce最多的用户。然而,对于这些
数据
,我不知道如何在分布式系统中对它们进行排序。非常感谢。
浏览 0
提问于2018-03-20
得票数 0
回答已采纳
1
回答
何时使用多个DBMS
、
、
我目前正在构建一个应用程序,它在我们用户的网站上运行
分析
并存储它。这使我能够
分析
所有
数据
,并为它们提供
分析
。由于从每个站点收集的
数据
都是静态的,并且每个站点之间差异很大,因此CouchDB似乎非常适合。我的第一个想法是使用MySQL来处理用户帐户,使用CouchDB来处理
海量
数据
。从本质上讲,就是用锤子钉钉子,用螺丝刀钉螺丝。 在这个时候,多个DBMS是个好主意吗?
浏览 1
提问于2012-01-09
得票数 1
回答已采纳
1
回答
在sas中使用proc sql从仓库(oracle引擎)中提取
数据
时进行简单的随机采样
、
、
我需要拉
海量
的
数据
,比如说600-700个变量从不同的表中的
数据
warehouse...now
数据
集在其原始形式将很容易达到150 on 79 MM行和我的
分析
目的,我只需要一百万rows...how我可以拉
数据
使用
浏览 0
提问于2017-08-04
得票数 0
8
回答
物联网、大
数据
、云计算、人工智能之间有什么关系?
物联网、大
数据
、云计算、人工智能之间的关系如何? 大
数据
、云计算,人工智能的发展,对物联网会有哪些帮助?
浏览 2574
提问于2018-04-12
3
回答
如何从“大
数据
”转到网页?
、
、
、
我花了很多时间阅读和观看人们谈论如何在他们的架构中使用为处理
海量
数据
集和实时处理而设计的工具的视频。虽然我知道Hadoop/Cassandra/Kafka等工具是做什么的,但似乎没有人解释
数据
是如何从这些大型处理工具中获得的,以便在客户端/网页上呈现一些东西。根据我对大
数据
工具的理解,你不能用标准的web应用查询MySQL的方式来构建你的应用程序,考虑到流经这些工具的
数据
的大小,我可以理解这一点,然而,对于所有这些“实时
数据
分析
”的说法,我
浏览 0
提问于2017-09-07
得票数 0
1
回答
类似于SQL表的循环调度,用于跟踪最近的活动
每晚cronjob汇总每个用户的统计
数据
听起来并不合理。我知道过去我曾用RRD表这样跟踪网络使用情况,但这些只是BerkeleyDB的,而且每个统计
数据
必须有一个文件,这是行不通的,但这个想法似乎是我想要的。有没有我忽略的模式/最佳实践?
浏览 1
提问于2011-12-31
得票数 2
回答已采纳
1
回答
使用python函数(Def)返回所需的行/列
当涉及到
分析
海量
数据
时,我认为创建一个函数来为每个
分析
选择所需的行/列会更有效率。我想用名为"data“的
数据
集实现的功能是, # None
浏览 19
提问于2020-05-21
得票数 0
回答已采纳
9
回答
大
数据
和「
数据
挖掘」是何关系?
大
数据
是最近两年提出的,而
数据
挖掘上世纪就提出来了。我想知道的是,现在大
数据
的背景下,采用的
数据
挖掘算法跟之前传统的
数据
挖掘算法有什么本质上的不同?如果没有不同,那又是什么关系呢?
浏览 1439
提问于2018-04-03
4
回答
将大量记录加载到内存中
、
、
、
、
每天有50万条记录,每条记录由大约500字节组成,我们必须
分析
一年的记录。为了加快处理速度,最好一次加载所有记录,但我们不能这样做,因为它需要大约88 GB的内存。将来记录的数量可能会超过。组,因为我们将这些记录作为组进行
分析
,并且有25000个组,这可能也会超过。我们可以一次加载一个组,
分析
组,丢弃并加载another....But这会导致进程非常慢,需要访问
数据
库服务器25000次!。使用内存中可用
数据
的单线程进程比使用
数据
库的多线程进程(线程数32)要快得多。 我们有没有什么方法可
浏览 3
提问于2013-01-08
得票数 0
1
回答
hadoop的用例
最近我偶然发现学习hadoop,我所发现的只是读取文本
数据
和计算字数的示例。所有的例子或多或少都有相同的任务。请帮我理解一下,这是hadoop的唯一用例吗?
浏览 2
提问于2012-09-11
得票数 0
1
回答
这是啥东东?
、
、
、
、
https://cloud.tencent.com/developer/ask/222926/answer/341680这是啥?
浏览 307
提问于2019-06-13
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
智能软件自动分析海量血糖数据
海量数据接入
海量朋友圈 | 海量数据×方向标联合直播
大数据和人工智能对海量用户行为数据的深度分析和挖掘的方法浅析
海量数据(603138.SH):企业级大数据应用平台提供AI驱动的增强分析功能
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券