暂无搜索历史
古老的大数据技术孕育了云计算,从云计算中衍生出了SaaS、PaaS等云服务,而云服务又让大数据技术在新时代获得了新生。
最近读到 Meta (前Facebook)公司发表的一篇文章,是介绍他们自己使用的 SQL Notebooks。在文章里,他们认为应该以 SQL 为核心去设计 ...
今天浏览 Apache Superset 的 GitHub 时,发现UPDATING.md中间有一项是Removes Python 3.7 support.。
这本书的最大特点是通俗易懂,只要有一点点的开发经验就可以读懂这本书。通过这本书,可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的,然后建立起一个比较宏...
关于数据质量的标准有很多,我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准:
2021 年 10 月 4 号,Python 官方正式发布了 Python3.10.0(https://www.python.org/downloads/rel...
突然想到一个问题,对于一个只会写SQL的数据分析师而言,一个好的大数据系统应该是怎么样的呢?
只要是做数据仓库的同学都或多或少了解和实践过维度数据建模,在大银行、运营商等传统领域,维度数据建模更是其数据分析和建模的核心理念。感兴趣的同学可以读下《数据仓库...
Hadoop 这个名称来源于一种已经灭绝的猛犸象,即 Yellow Hadoop。
这是一个新概念:The Modern Metadata Platform,直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生...
正如谷歌的CEO Sundar Pichai所言:AI will transform how we lead our lives and revamp many...
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容...
DataHub 是由领英的数据团队开源的一款提供元数据搜索与发现的工具。现在的 DataHub 是由 WhereHows 演变过来的。
我们每个人都知道时间,也都在使用时间。同事之间要聚会了,会互相通知今晚七点不见不散,过了两小时,吃饱喝足了,聚会也就散了。“今晚七点”和“过了两小时”代表着日常...
Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来,其中讲述了他对...
最近看到一篇文章:https://rudderstack.com/blog/churn-prediction-with-bigqueryml,主要是讲使用 Bi...
最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2,文章写得很简...
2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databric...
机器学习平台的最大的驱动力应该是面向数据科学家的基于 Python 的开源技术生态系统的蓬勃发展,比如 scikit-learn、XGBoost 和 Tenso...
我们团队用的调度系统是 Apache Airflow(https://github.com/apache/airflow),数据传输工具是 DataX(http...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址