Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >对csv数据的350 to执行SQL分析的工具

对csv数据的350 to执行SQL分析的工具
EN

Data Science用户
提问于 2016-01-06 18:33:51
回答 2查看 460关注 0票数 4

简而言之,对csv数据的350 the执行特殊sql (样式)查询的最佳方法/技巧/技术/工具是什么?如果我们放弃了"sql“要求,还会有其他选项,工具方面的选项可以更快地完成吗?

是我最好的选择蜂巢和许多服务器,我不能得到我的手?星星之火会有什么好处,因为这种大小的数据集将不会接近适应内存?我还有其他相关的问题,/ideas,但我不想陷入困境。

背景

数据最初以二进制格式存储,该格式被转换为ASCII。ASCII文件正在被转换为CSV (实际上是分开的选项卡,但无论如何)。一个二进制文件=一个ASCII文件=一个CSV文件。数据格式非常简单,200到500个头列,每一行都是一个1秒间隔的属性示例。

代码语言:javascript
运行
AI代码解释
复制
Example (first row is header):
t,attribute1,attribute2...<attributeX>
1,val1,val2...<valx>
2,val1,val2...<valx>
3,val1,val2...<valx>
...
X,val1,val2...<valx>

可以运行的示例查询。

1)取t值(t是非唯一的,因为每个文件从1开始,并在某个随机时间结束),并对在100-1000处采样的所有其他属性的不同属性值进行100-1000之间的比较。

2)有UTC值作为属性值(列之一),与#1一样,我们可能希望比较X日期之间的所有属性,并将这些属性与来自不同UTC范围的Y数据进行比较。

3)我们可能想找出一个单一的特定属性和趋势,从最早的时候起,我们就看到了另一个特定属性的属性。

这些是我提供给我的最好的例子,但是其他类型的查询也可能存在。如果你有一个问题,为什么我们不把二进制数据转换成CSV数据的中间部分去掉,理论上我们可以。然而,转换文件的程序是相当老的,而且非常复杂。

EN

回答 2

Data Science用户

回答已采纳

发布于 2016-02-10 04:06:23

谈到SQL世界:从您的需求角度来看,基于并行列的DB Vertica似乎很适合。不过,这不是免费的。更强大的解决方案,如果您有良好的预算,是Teradata。

您需要至少有70个纺锤才能将数据存储在站点+/-压缩和冗余的HDD (5TB)上。如果可以缓存,可以添加更多的RAM或SDD。它可以装在3-10个盒子里,取决于你需要的处理能力。

其余的是一个关于数据管理、特性集、优化、您自己花费的时间和价格之间的权衡的软件问题。肯定会减少您编写查询和优化查询、管理数据的时间。如果你需要加入的话,这个优势将会更大。

票数 1
EN

Data Science用户

发布于 2016-01-09 17:31:18

有许多工具能够支持这样的查询(正如您提到的Hive或Spark),而且在查询的数量、查询数据的人数、想要使用什么样的BI或报告工具等方面,这确实取决于您的需求。

更重要的是,您的需求可能会在未来发生变化。如果您提供了更简单的查询数据的方法,那么您周围的人就会越多地使用它。

例如,如果您选择将这些数据加载到Amazon (https://aws.amazon.com/redshift/)中,它将为您提供一个完整的SQL灵活性、非常快速的性能以及连接到几个BI、可视化和报告工具的能力。当您将数据复制到Redshift中时,它将被压缩5-8次(基于列的编码),并且您可以将所有数据放在Redshift的DS2.8XL的6个节点的集群中,为POC保存几个星期。

压缩的概念也适用于不同的解。例如,您可以将其转换为Parquet (https://parquet.apache.org/)格式,而不是使用CSV格式,并在需要移动和扫描较少字节的数据时保存存储空间并提高性能。一旦您在Parquet中获得了数据,就可以使用Presto查询它,就像Netflix正在做的一样- http://techblog.netflix.com/2014/10/using-presto-in-our-big-data-platform.html

关于火花,即使你没有把所有的数据放进内存中,它也会有所帮助。星星之火还可以帮助您使用齐柏林飞艇(https://zeppelin.incubator.apache.org/)作为一个交互式笔记本,具有良好的可视化功能,以及使用Scala、Python甚至R与SparkR编写代码。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/9662

复制
相关文章
html5设置table样式_原生js添加样式
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/11/05
14.7K0
【HTML5】HTML5 新增 input 表单 ( 邮箱输入表单 | 网址输入表单 | 日期输入表单 | 时间输入表单 | 电话输入表单 | 搜索栏输入表单 | 颜色选择器输入表单 )
一、HTML5 新增 input 表单 ---- HTML5 新增 input 表单 : 邮箱输入表单 : 必须输入邮箱 , 如果输入格式错误 , 提交时会在对话框中报错 ; <input type="email" /> URL 输入表单 : 只能输入网址 , 格式错误会在对话框中报错 ; <input type="url" /> 日期输入表单 : 右侧的下拉菜单选择日期 ; 如果在手机中打开 , 会弹出手机中自带的日期选择对话框 ; <input type="date" /> 时间输入表
韩曙亮
2023/04/24
3.4K0
【HTML5】HTML5 新增 input 表单 ( 邮箱输入表单 | 网址输入表单 | 日期输入表单 | 时间输入表单 | 电话输入表单 | 搜索栏输入表单 | 颜色选择器输入表单 )
EasyNVR前端构建之输入框样式的调整
起初我们的界面设计是为了满足功能的需求就是 ,用户可以输入激活码提交,完成永久授权。 在实际的应用过程中我们发现由于输入框自身大小的原因,我们的机器码有事无法完全展示给用户,不方便用户的自我检查激活码是否准确。因此我们考虑使用可以方便拉伸改变大小的输入框。
EasyNVR
2020/04/23
9790
EasyNVR前端构建之输入框样式的调整
WordPress 后台样式:输入框 input class
我们在 WordPress 后台创建表单的时候,可以使用一些预定义好的 class 来定义输入框的宽度,而不需自己写样式,下图就是常用的输入框样式的效果:
Denis
2023/04/14
7400
WordPress 后台样式:输入框 input class
bootstrap 输入框组 常用搜索框样式
div input-group span input-group-addon <div style="padding: 100px 100px 10px;"> <form class="bs-example bs-example-form" role="form"> <div class="input-group"> <span class="input-group-addon">@</span> <input type="text" class="form-control" placeholder="twitterhandle"> </div> <div class="input-group"> <input type="text" class="form-control"> <span class="input-group-addon">.00</span> </div> <div class="input-group"> <span class="input-group-addon">$</span> <input type="text" class="form-control"> <span class="input-group-addon">.00</span> </div> </form> </div>
用户5760343
2019/07/05
3.1K0
bootstrap 输入框组  常用搜索框样式
html5数字和颜色输入框
效果:http://hovertree.com/code/html5/rxujb6g8.htm
全栈程序员站长
2022/07/15
2.6K0
防止vue文件中的样式出现‘污染’情况(html5 scoped特性)
在vue中,如果把样式写在vue文件的 style中,可能会出现样式污染的情况,这是要把写样式的标签
lin_zone
2018/08/15
8760
DataList:HTML5中的input输入框自动提示利器
DataList的作用是在你往input输入框里输入信息时,根据你敲进去的字母,自动显示一个提示下列列表,很像百度或谷歌的搜索框的自动提示,在飞机票火车票的搜索页面上也有这样的效果。它是HTML5里新增的一个非常有用的元素。
ZhangXianSheng
2019/05/28
3.5K0
Excel实战技巧66:创建向导样式的数据输入窗体4
在HRWizard用户窗体中输入的一些数据是通过组合框控件显示给用户的。HRWizard工作簿文件包含一个名为ListMgr的工作表,其中包含每个列表的数据,这些数据存储在ListMgr工作表的命名区域。
fanjy
2019/12/10
1.3K0
Excel实战技巧66:创建向导样式的数据输入窗体4
Excel实战技巧66:创建向导样式的数据输入窗体3
上文中,我们完成了用户窗体界面的设计。接下来,设置一些类来使用户窗体工作。在一开始,你可能会认为一个与数据记录相联系的类就满足要求了,但我们将在定义类时分解功能,设计一两个类帮助定义向导步骤。最终,将实现一个灵活的向导应用程序,提供非常容易修改步骤的顺序的能力,甚至添加一个步骤也相当简单。
fanjy
2019/12/10
6860
Excel实战技巧66:创建向导样式的数据输入窗体3
Excel实战技巧66:创建向导样式的数据输入窗体2
4.在用户窗体顶部添加标签,将其Caption属性设置为:MyCompany– HRWizard,设置字体为大尺寸,例如18pt。
fanjy
2019/12/10
1K0
Excel实战技巧66:创建向导样式的数据输入窗体2
Excel实战技巧66:创建向导样式的数据输入窗体6
运行用户窗体,我们在向导中的每一界面输入数据,并将其保存到EmpData工作表中。
fanjy
2019/12/11
6900
Excel实战技巧66:创建向导样式的数据输入窗体6
Excel实战技巧66:创建向导样式的数据输入窗体1
引言:本文来源于Jim DeMarco的《Pro Excel 2007 VBA》第4章的示例,详细讲解了如何使用用户窗体来制作一个向导样式的数据输入窗体,非常适合于学习使用VBA来创建用户窗体的知识和技巧,也为制作向导样式的用户窗体界面提供了参考模板。
fanjy
2019/12/06
1.2K0
Excel实战技巧66:创建向导样式的数据输入窗体5
到目前为止,我们已经完成了最艰难的工作。接下来,我们来编写用户窗体代码,将已完成的对象放进HRWizard用户窗体里并使这些对象工作。
fanjy
2019/12/11
1.7K0
Excel实战技巧66:创建向导样式的数据输入窗体5
HTML5 - 虚拟键盘出现挡住输入框的解决办法
我们使用 H5 做移动 App,或者进行移动网站开发时。如果文本输入框在整个页面的下方,当我们点击输入框要输入文字时,系统弹出的虚拟键盘就会将输入框给挡住。(这个只有在Android 系统下会有这个问题,iOS 系统会自动将整个页面上移动。)
ZhangXianSheng
2019/05/28
2.2K0
HTML5 中 input 如何实现只能输入浮点数
我们知道 HTML5 中的 input 标签支持 number 的类型,支持只能输入数字:
Denis
2023/04/14
1.1K0
IOS应用提交所需的ICON
如果提交的ipa包中,未包含必要的Icon就会收到类似的通知,为什么偏偏是Icon-76呢?
meteoric
2018/11/19
8690
怎样快速搜索自己所需的资料?
摘要:我不敢保证现在100%的大学生不会使用互联网快速搜索自己所需的资料,但我绝对敢保证有70%~90%大学生不会使用此方法进行快速搜索自己所需的资料。本文以百度为例,分享三个重要技巧。 一、关键词:
用户1756920
2018/06/20
1.6K0
企业面试题: HTML5中新的输入类型属性你知道哪些
search:用于搜索域,比如站点搜索或 Google 搜索,域显示为常规的文本域。
舒克
2019/08/09
6240
软件测试所需要掌握的技能
1.在测试中最重要的文档,他是测试工作的核心,是一组在测试时输入输出的标准,是软件需求的具体对照。编写测试用例,是测试人员的基本功,真正能写好的人并不多。
用户7880705
2020/12/28
1K0

相似问题

PHP:类中的静态只读属性

31

如何在Javascript类中声明只读静态属性?

20

添加静态只读属性时导致错误的静态常量类

12

如何重置只读静态属性?

12

C#中的静态只读和静态只读

50
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档