K Young, Mortar Data首席执行官和共同创始人,为我们分享了他们如何使用Mortar和Redshift实现大数据集成。
Mortar是一个稳健的可以无缝连接最好的数据技术的平台,使得初创企业可以快速发展坚实的基础。用户可以连接到任何数据源,做任何转换或算法,随后通过一个命令就可以在生产环境获得一个可扩展的,健壮的工作负载。在几天或几周内,Mortar就可完成基础设施、配置、multitech集成、和监测的自动化任务,就让高价值的项目投入生产,而不需要几个月或几年的时间。
Mortar Data CEO兼创始人Mortar K Young
我们来自哪里
我以前是纽约市教育技术公司--Wireless Generation的一名员工。这家公司非常的成功:我们构建了一些真正有趣的产品,公司最终以4亿美元的价格被收购。
但是我和同事有个很棘手的问题。我们发现对于学生使用大数据集学习强大的建模和数据分析的时候,效率真是低得令人沮丧。
差不多同时,新兴的Hadoop生态系统产生的新技术已经可以利用分布式计算大规模并行复杂数据处理任务,就像我们运行学生数据的那些任务。但在这些新技术领域没有资深技术专家,因为对大多数工程师来说入门门槛太高了。
我们决定改变这种状况,于是在2011年创建了Mortar Data公司,为工程师和数据科学家提供一个平台,让他们能够轻松、及时地访问最好的数据技术--去除设置和配置的麻烦,不用头疼基础设施,更不用手足无措的祈求一切顺利不被未知的错误破坏。
大量,杂乱的数据
众所周知,数据无处不在,这也是一个问题。
如果在生产环境中运行app,你会采集用户在app中进行操作的各种数据。你通过网站、CRM和用户沟通交流服务获取的数据,甚至是不起眼的地方的一点小数据都不放过。你明白我的意思。数据无处不在。
财富1000强的企业和其他大公司的问题更糟,他们不仅有大量的数据,而且数据通常遍布许多存储仓,其中一些数据已经不再活跃,只是躺在那里,布满灰尘。
也许每一个数据源在某一个点上来说是有用的,但是不集成所有数据,访问数据存储就无法解决很多大的、重要的方针指定问题。不幸的是,将数据手动的集成到一起几乎是不可能的,特别是处理大量数据的时候。
扫清混乱
为了保持低成本和操作简单,我们利用AWS为用户提供其需求的高效且无限的计算能力。Amazon Redshift,这是亚马逊随需应变型数据仓库,使用ad-hoc查询或集成BI工具作为图形界面来提供了一种理想的方式处理大数据,综合报告和数据分析。Redshift的速度非常快,没有提前委托就可以随需应变,简单并且有伸缩性。所以,2013年才发布的Redshift现在就已经成为AWS有史以来增长最快的服务了。
我们第一次用Redshift分析从自己的网站app收集到的一些数据时,发现了两件事情:第一,Redshift和我们耳闻的是一样的;第二,Mortar是加载一个Redshift数据库最佳的方式。
凡是工作带有“数据”头衔的人都知道,整理和处理数据是一部分巨大的工作。数据生成的表单很少有随时可用的。还需要标准化、处理、整理减少问题字段。
在其他技术中,Mortar平台运行Apache Pig,其执行简单的,可读的,分段数据处理脚本作为分布式MapReduce工作(在亚马逊EMR服务上)。Pig的数据流语言对于转换数据是极其高效,这使得它非常适合从任何数据源中获取混乱的原始数据,并且整理、预处理准备集成的数据。因此,我们马上就发现我们的客户可以集成大数据源——通过利用管道整理数据输入到Redshift的Pig脚本。
但这只是成功的一半。为了真正有用,数据库必须保持数据最新,理想情况是需要最小限度的维护和手动操作。这就是Mortar平台带有的另一部分功能。Spotify开发和开源的Luigi在被无数公司使用(包括Stripe,Capital One,Asana,和Foursquare),是一个用于策划多级数据处理工作的框架,可以结合Luigi和Mortar,一个工程师可以自动化数据管道,包括任何多重依赖技术。
例如,如果任务B取决于任务A,你会希望管道先触发任务A,完成之后再触发任务B。最终,你就可以安排整个管道定期或连续运行了。
这意味着你可以轻松地执行模块化Pig脚本,每个脚本处理不同来源的数据,以及将所有数据自动定期输入到Redshift。这样的管道听起来复杂但实际上是非常有弹性的:如果管道的一部分由于某种原因失败了,Mortar可以自动重试。Luigi会恢复中断处管道的工作,节省了时间和计算成本。加上我们建成了全面监控和警报系统来拯救客户脱离夜不能寐。我们是一群pager-carrying工程师,所以知道这点是多么的重要。
成功案例
当你在初创公司工作,你永远不会知道你工作的通往哪里。例如,当我们开始创立Mortar时,Redshift甚至还不存在,所以我们不知道构建什么能与之紧密配合好,并且当构建好了我们的Redshift功能,也不知道谁会使用它或者它会为客户开放哪种新发现。
因此,大约一个月以前,我们兴奋地阅读了Michael Erasmus写的博客,他是我们的客户——Buffer公司的一位工程师。Buffer在使用Mortar建立一个新架构将数据持续输入到Redshift之前是被“淹没在数据”中的。
在Redshift上运行图形化BI工具Looker,Buffer所有突然出现的数据对公司每个人需要它的人都是立即可用的。Erasmus说,即使是技术不太好的团队成员“都能快速上手Looker并满足自己的数据需求,想出惊人的见解真的很快。”
通过Redshift,Buffer公司任何人现在都可以在短时间内分析5亿条记录,而不是等待数据团队的某个人为他们写一个定制查询。这是他们从度量和分析过程中删除了的巨大瓶颈,应该能帮助他们为客户提供更好的服务。我们为创建出帮助他们这么做的东西感到非常自豪。
继续前进
我们的客户现在使用Mortar来生成建议,运行预测分析,构建机器学习模型,以及使用Amazon Redshift集成多个数据源到中心的、可进的、易查询的数据库。应用工具诸如Redshift,我们正在推进使命任务让客户免于花费90%的时间到模板任务上,这样他们就可以花100%的时间解决具体业务上有趣的问题。
原文链接:https://medium.com/aws-activate-startup-blog/modern-data-integration-with-mortar-and-redshift-fed7aff67519