开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

delta中spark.databricks.delta.snapshotPartitions配置的用途是什么？

delta中spark.databricks.delta.snapshotPartitions配置的用途是指定在生成Delta表的快照时，应该使用的分区数。Delta表是一种基于Apache Spark的开源数据湖解决方案，它提供了ACID事务支持和增量数据处理能力。

配置spark.databricks.delta.snapshotPartitions参数可以控制快照生成过程中的并行度。通过调整该参数，可以控制生成快照的任务数量，从而影响生成快照的速度和资源消耗。较大的分区数可以提高生成快照的并行度，加快生成快照的速度，但也会消耗更多的资源。

推荐的腾讯云相关产品是TencentDB for Apache Spark，它是腾讯云提供的一种支持Apache Spark的云数据库产品。TencentDB for Apache Spark提供了与Delta表集成的功能，可以方便地使用Delta表进行数据湖的构建和管理。您可以通过以下链接了解更多关于TencentDB for Apache Spark的信息：https://cloud.tencent.com/product/spark

相关搜索:密钥在kubernetes中的用途是什么?它的用途是什么？SALib.analyze.delta:返回参数Delta值和delta_conf的定义是什么？CSS中'@'符号的用途是什么？php中接口的用途是什么？tensorflow中"FLAGS“的用途是什么？python中“pop”的用途是什么？MotionLayout中touchAnchorSide的用途是什么？PingFederate中resumePath的用途是什么 Lucene的用途是什么？IsLocalUrl的用途是什么？createDrainingControl的用途是什么？Python：'|‘的用途是什么？在ConfigParser使用的配置文件中,DEFAULT部分的用途是什么？github中"projects“选项的用途是什么？汇编中“org xxxx”的用途是什么 LinkedHashMap中'accessOrder‘字段的用途是什么？perl中localtime`time`的用途是什么？此查询中total的用途是什么？Hibernate中bag标签的用途是什么？BLE中“访问地址”的用途是什么？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。

01

DataBricks新项目Delta Lake的深度分析和解读。

DataBricks最近新开源了一个项目Delta Lake。这其实不算是个新项目了。DataBricks在其商业版里面提供这样的功能已经有一段时日了。对我来说Delta Lake就是久闻大名，但是不知道庐山真面目。

03

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

这个大数据开源项目多半要黄，但我希望它能成。。。

新粉请关注我的公众号今天聊聊这个由Kyligence和Intel一起搞的开源项目Gluten。 Gluten是什么呢？简单来说，这个项目的作用是给Spark引擎的执行赋予调用Native Vectorized engine，比如ClickHouse的能力。要具体来说呢，就是在Spark查询Plan生成的时候，Gluten把一些Spark的查询计划拦截下来，让下面的native 引擎比如ClickHouse去执行。当然，由于native引擎的问题，有些东西干不了，Gluten对干不了的operator重

02

无数据不AI的狂欢！Databricks Data+AI峰会亮点总结

一年一度的 Databricks Data+AI 峰会于上周在旧金山 Moscone 会议中心热闹开展。作为全美乃至全球最大的科技会议之一，Data+AI 峰会自然吸引了大量数据与人工智能领域工作者的目光。而以往年不同的是，今年的峰会在举办之前便火药味十足。在今年早些时候，Databricks 与 Snowflake 这两家最大的云数据平台厂商便先后宣布将在同一时间，也就是六月最后一周，举行各自的年度会议。这意味着，广大科技工作者们只能在这两家公司的活动中做出二选一的艰难抉择。而在峰会期间，Databricks 更是大规模投放广告，直接叫板 Snowflake，高调宣称自家的数据湖仓相比于 Snowflake 拥有 9 倍性价比提升。

04

Delta Lake 2.0正式发布，Databricks能赢吗？

新粉请关注我的公众号我收到了一封邮件，具体内容截图如下：简单说，就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布，也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变，它都会生成Change Data Feed。你要是订阅了这个东西，比如说把它放进一个Kafka集群里面，理论上就可以准实施复制出一份数据来。这个东西有点像什么呢

01

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

Databricks推出机器学习的开源多云框架，简化分布式深度学习和数据工程

Databricks研究调查的初步结果显示，96％的组织认为数据相关的挑战是将AI项目移至生产时最常见的障碍。数据是人工智能的关键，但数据和人工智能则处在孤岛中。Databricks是统一分析领域的领导者，由Apache Spark的原创者创建，利用统一分析平台解决了这一AI难题。今天在旧金山召开的Spark + AI峰会上，由4,000位数据科学家，工程师和分析领导者组成的年度盛会，为企业降低AI创新障碍创造了新的能力。这些新功能统一了数据和AI团队和技术：用于开发端到端机器学习工作流的MLflow，用于ML的Databricks Runtime以简化分布式机器学习，用Databricks Delta以提高数据的可靠性和性能。

03

Databricks一次拿了SIGMOD两个大奖

新粉请关注我的公众号在最近费城召开的SIGMOD2022上，Databricks当仁不让成为了赢家，一共拿到了两项大奖： 1.Spark拿到了SIGMOD System Award 2.Photon拿到了Best Industry Paper Award SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多，但是大部分人还是觉得ICDE差一点。 2020年以前我每年会尽量争取去其中一个会议，以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了，很

02

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

Delta Lake 2.0：Databricks的急病乱投医？？？

新粉请关注我的公众号在今年的Data+AI summit上，Databricks宣布了不少东西，其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake，这次宣布开源2.0。这个2.0按照Databricks的说法，就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。 Delta Lake这个项目Databricks最开始做的应该是最早的，但是不开源，只是卖钱给付费客户用。 2019年的时候终于开源了。开

01

让大模型融入工作的每个环节，数据巨头 Databricks 让生成式AI平民化 | 专访李潇

Databricks CEO Ali Ghodsi 曾表达过这样的观点：Databricks 的目标是实现数据普惠和 AI 普惠，数据普惠使得数据能够触达企业内的每一名员工，而 AI 普惠则将人工智能引入每一个产品中。他强调“每个组织都应该从 AI 革命中获益，并更好地掌控数据的使用方式。”在过去，Databricks 在 AI 领域积累了大量经验，如今在大模型的潮流下，他们不仅推出了自家的开源大模型 Dolly 2.0，还以 13 亿美元的价格收购了生成式 AI 公司 MosaicML，迅速强化了大模型方面的实力。最近，Databricks 发布了一系列创新产品，例如 Lakehouse IQ、AI Gateway, Unity Catalog 等。作为大数据领域的领军企业，我们相信 Databricks 正在塑造着未来。在 QCon 北京到来之际，我们采访了 Databricks Engineering Lead 李潇，以深入了解他们在数据领域的创新思想。

01

Spark＆AI Summit 2019

他们宣布了一个名为Koalas的新项目，这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新数据科学家将减少损失。

02

Lakehouse架构指南

你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求？数据湖包括哪些组件和功能？

02

Hudi、Iceberg 和 Delta Lake：数据湖表格式比较

在构建数据湖时，可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

02

Databricks为模型构建和部署启动了automl工具包

Databricks今天推出了AutoML Toolkit，这是一种自动化的端到端机器学习服务，旨在为具有丰富经验的开发人员提供服务。

04

Delta的真正用处和价值，你可知道

应该说，Delta是最近几年Databricks开源的最有价值的东西。Databricks这几年对外致力于AI,对内则努力给客户提供一站式分析处理平台。这个一站式的核心是，内核包含了流和批的真正统一，那什么才是真正的流和批的统一呢？

04

0927-Databricks X Tabular

Databricks 已同意收购由 Apache Iceberg 创建者领导的存储平台供应商 Tabular，以促进 Lakehouse 中的数据互操作性。

01

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

是时候将数据分析迁移到云端了。我们比较了 Databricks 和 Snowflake，以评估基于数据湖和基于数据仓库的解决方案之间的差异。在这篇文章中，我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。我们通过比较多种云环境中可用的两种流行技术来做到这一点：Databricks 和 Snowflake。正如我们在上一篇文章中了解到的，数据分析平台可以分为多个阶段。上面，我们可以看到一张图片，大致了解了管道中 Snowflake 和 Databricks 的角色。在这里，我们可以将工具分

01

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

04

Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员，也是 Spark SQL 的最初创建者，目前领导 Databricks 团队，设计和构建 Structured Streaming 和 Databricks Delta，技术涉及分布式系统、大规模结构化存储和查询优化等方面。

04

挑战 Spark 和 Flink？大数据技术栈的突围和战争｜盘点

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或缺的基础设施。然而，在这个时刻，我们不禁要问：当前的大数据架构是否已经趋于完美？2023 年，伴随着人工智能的跃变式爆发，数据平台将如何演进，以适应未来的数据使用场景？

01

然而并没什么卵用的Apache CarbonData发布功能强劲的2.0版

5月的大数据圈子，波澜不兴之余，华为主导的开源项目Apache CarbonData发布2.0 RC2版本。这是CarbonData这个项目的一次巨大升级。

02

重磅 | Delta Lake正式加入Linux基金会，重塑数据湖存储标准

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。

03

估值380亿美元！这家微软、谷歌、亚马逊都投资的AI初创公司什么来头？

昨日，人工智能大数据初创公司Databricks成功完成了16亿美元的H轮融资，其估值达到了380亿美元。

02

Presto 和 Trino Deltalake 原理调研和总结

最近在了解 Presto 和 Trino 对于 Deltalake Connector 的相关实现原理，这里了解完刚好用一篇文章总结下，一是可以帮助自己未来的回顾，二是也希望能够帮助大家，下面都是个人理解，若理解有误，欢迎指出，共勉。

01

重磅 | Apache Spark 社区期待的 Delta Lake 开源了

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。目前 Delta Lake 项目地址为 https://delta.io/，代码维护地址 https://github.com/delta-io/delta。

03

数据湖及其架构的一份笔记

数据湖（Data Lake）是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库，通常是对象blob或文件。数据湖通常是企业所有数据的单一存储，包括源系统数据的原始副本，以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库（行和列）的结构化数据，半结构化数据（CSV，日志，XML，JSON），非结构化数据（电子邮件，文档，PDF）和二进制数据（图像，音频，视频）。

01

抛弃Hadoop，数据湖才能重获新生

十年前，Hadoop 是解决大规模数据分析的“白热化”方法，如今却被企业加速抛弃。曾经顶级的 Hadoop 供应商都在为生存而战，Cloudera 于本月完成了私有化过程，黯然退市。MapR 被 HPE 收购，成为 HPE Ezmeral 平台的一部分，该平台尚未在调查中显示所占据的市场份额。

01

2019-03-31的一周好文推荐

https://kudu.apache.org/2019/03/19/testing-apache-kudu-applications-on-the-jvm.html

02

网易有数怼Databricks： “Delta Lake2.0比Iceberg快”是假的。。。

新粉请关注我的公众号 Delta Lake 2.0 正式发布了。网易的大数据产品也没闲着，这就搞了点事情：从Delta 2.0开始聊聊我们需要怎样的数据湖。这篇文章的内容很多，大家有需要的可以自己读读，肯定有收获。我就不展开一一分析了。今天的重点是看看这篇文章网易是如何打脸Databricks的。这是Databricks在官宣要发布Delta Lake 2.0的讲座的时候的一张PPT。网易的文章也引用了。简单来说就是Delta Lake 2.0快，Iceberg Hudi都是渣渣。这个测试是第三方

04

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB Cloud 是为开源分布式数据库 TiDB 打造的全托管 DBaaS (Database-as-a-Service) 服务。

03

Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是，这些 meta 文件是与数据文件一起存放在存储引擎中的，用户可以直接看到。这种做法直接继承了大数据分析中数据对用户可见的传统，但是无形中也增加了数据被不小心破坏的风险。一旦某个用户不小心删了 meta 目录，表就被破坏了，想要恢复难度非常大。

02

一个理想的数据湖应具备哪些功能？

从数据库到数据仓库，最后到数据湖[1]，随着数据量和数据源的增加，数据格局正在迅速变化。数据湖市场预计增长近 30%[2]，将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看，数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0，该趋势可能会增长，该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能，使数据湖成为该行业的支柱。治理、安全性、可扩展性以及对分析和交易数据的无缝分析，将会推动该领域创新。

04

暗战升级，Databricks 收购 Tabular，Iceberg 社区陷入动荡

紧接着，最近刚刚发生的事件，Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMC Chair 辞职，核心他的担忧是存在利益冲突。

01

spark君第一篇图文讲解Delta源码和实践的文章

Delta 原本是在 Databricks Runtime 里面的一个增值功能，在 spark + AI Summit 2019 大会上，官方以 Apache License 2.0 协议开源。

01

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及优化其性能的技巧的见解。通过阅读本文，读者应该对Apache Hudi有扎实的理解，并了解如何在其数据处理流程中利用它的优势。

02

专访李潇：数据智能平台，AI 时代的 Lakehouse 架构

在过去十年里，随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷，整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的大数据处理平台提供商，Databricks 一直扮演着引领者的角色。

01

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下？

Lakehouse最早由Databricks公司提出，其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统，Lakehouse结合数据湖和数据仓库的优点：包括数据湖的低成本存储和开放数据格式访问，数据仓库强大的管理和优化能力。Delta Lake，Apache Hudi和Apache Iceberg是三种构建Lakehouse的技术。

02

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

【SaaS播客】nextS6E06. 对话Databricks联合创始人Reynold Xin：380 亿美元估值背后的长期主义

Databricks是大数据领域的元老公司，我印象中在14/15年那段时间是和Cloudera、Hortonworks齐名的，而18年那两家已经走下坡路合并了，但Databricks反而这几年越来越好，和Snowflake成为双子星。我司也用Spark（或者说它是批计算的业界标准），并且基于它们提出的Lakehouse湖仓一体架构。很有幸能听到它的华人联合创始人辛湜的分享。

00

达梦冲刺国产数据库第一个IPO；特斯拉自动驾驶部门裁员约200人；微信推出图片大爆炸功能｜Q资讯

整理｜燕珊被曝裁员、欠薪、停缴社保后，开课吧创始人发表内部信回应；腾讯 QQ 回应大规模账号被盗：A 股或迎“国产数据库第一股”；受影响范围已得到控制，正收集黑产团伙犯罪证据；Meta 今年工程师招聘指标缩减超 3000 人；三星宣布量产 3 纳米制程芯片；索尼中国董事长高桥洋退休，御供俊元接任；特斯拉自动驾驶部门裁员约 200 人；Meta 今年工程师招聘指标缩减超 3000 人；三星宣布量产 3 纳米制程芯片；索尼中国董事长高桥洋退休，御供俊元接任；Databricks 宣布将 Delta Lak

03

想学spark但是没有集群也没有数据？没关系，我来教你白嫖一个！

今天要介绍的平台叫做databricks，它是spark的创建者开发的统一分析平台。单凭spark创建者这几个字大家应该就能体会到其中的分量，其中集成了Scala、Python和R语言的环境，可以让我们在线开发调用云端的spark集群进行计算。

04

最新大厂数据湖面试题，知识点总结（上万字建议收藏）

本文目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖？区别在于？八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比

02

专访Databricks辛湜，谈Spark排序比赛摘冠及生态圈热点

据Sort Benchmark最新消息，Databricks的Spark与加州大学圣地亚哥分校的TritonSort两个系统在2014 Daytona GraySort排序比赛上并列第一。其中，Tri

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要：今天我们就来解构数据湖的核心需求，同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案，帮助用户更好地针对自身场景来做数据湖方案选型。

02

Spark为什么比Hadoop快那么多？

在2014年11月5日举行的Daytona Gray Sort 100TB Benchmark竞赛中，Databricks 用构建于206个运算节点之上的spark运算框架在23分钟内完成100TB数据的排序，一举击败了该赛事2013年的冠军—Yahoo团队建立在2100个运算节点之上的Hadoop MapReduce集群，该集群耗时72分钟排序了102.5TB的数据。换句话说，Spark用了十分之一的资源在三分之一的时间里完成了Hadoop做的事情。 HadoopSpark被排序数据大小102.5 TB

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

作者 | Sanket Gupta 译者 | 王强策划 | 刘燕本文最初发布于 Medium 网站，经原作者授权由 InfoQ 中文站翻译并分享。当你的数据集变得越来越大，迁移到 Spark 可以提高速度并节约时间。多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库，你可以用它做各种变换，可以处理各种类型的数据，例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas

01

python处理大数据表格

假设你有1亿条记录，有时候用到75%数据量，有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

01

StreamingPro 支持多输入，多输出配置

最近正好有个需求，就是从不同的数据库以及表里拉出数据，经过一定的处理放到ES里供查询，最好还能放个到parquet里，这样可以支持更复杂的SQL。之前StreamingPro是只能配置一个数据源的，所以做了些改造，方便配置多个数据源，以及多个写出。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭