开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

spark sql databricks -优化后的事务日志错误

Spark SQL是Apache Spark的一个模块，用于处理结构化数据。它提供了一个用于处理大规模数据的分布式SQL查询引擎。Databricks是一个基于Spark的云数据平台，提供了一个可扩展的分析环境，用于处理大规模数据集。

优化后的事务日志错误是指在使用Spark SQL和Databricks时，可能会遇到的一种错误类型。事务日志是用于记录数据修改操作的日志文件，用于保证数据的一致性和可靠性。在进行数据处理时，如果事务日志出现错误，可能会导致数据处理过程中的错误或数据丢失。

为了优化事务日志错误，可以采取以下措施：

检查日志文件：首先，需要检查事务日志文件是否存在错误或损坏。可以使用Spark SQL和Databricks提供的工具来检查和修复日志文件。
数据备份：为了防止数据丢失，建议定期进行数据备份。可以使用Databricks提供的数据备份功能，将数据备份到可靠的存储介质中。
错误处理和恢复：当事务日志错误发生时，需要及时处理和恢复。可以使用Spark SQL和Databricks提供的错误处理机制，如重试、回滚等来处理错误，并尽可能地恢复数据。
性能优化：为了减少事务日志错误的发生，可以进行性能优化。例如，优化查询性能、调整数据分区、增加硬件资源等，以提高系统的稳定性和可靠性。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云提供了一系列与云计算相关的产品和服务，包括云服务器、云数据库、云存储等。您可以访问腾讯云官方网站（https://cloud.tencent.com/）了解更多详情。

注意：本回答仅供参考，具体的解决方案和推荐产品需要根据实际情况进行评估和选择。

相关搜索:处理计算中的负值(Databricks-Spark SQL)更新查询的SQL Server事务日志如何在spark sql (databricks)中重用已创建的列？确认后，挂起的以太事务的日志消失 Spark (Databricks)来自SQL的非托管表不处理标头从SQL Server的事务日志中删除信息 spark sql:如何优化多个巨型hive表的连接几次运行后，Databricks群集上的计划Spark作业间歇性失败 (Spark和) Databricks中的下推查询不适用于更复杂的sql查询？回滚嵌套事务和日志错误-在触发器中，Sql Server 2008 SQL Server:如何从事务日志中获取更新前的值？在Spark SQL中使用UDF函数后，如何修复此类型错误？将SELECT语句的标量结果赋值给Spark SQL中的变量或小部件(Databricks)apache-spark-sql:错误未返回包含错误的列名数据迁移后的SQL数据库日志迁移sql server 优化SQL查询-清除数据库中的旧日志如何执行命令:在Spark/Databricks的SQL Server表上设置IDENTITY_INSERT <table> ON？使用不带Databricks的scala将spark 3.0 sql数据帧写入CSV文件时出错如何在不使用databricks lib的情况下向Spark SQL查询结果添加列标题？SQL Server中事务日志和已删除行之间的大小差异

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。

01

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache Spark 3.0.0正式发布！

00

Lakehouse架构指南

你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求？数据湖包括哪些组件和功能？

02

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

02

重磅 | Delta Lake正式加入Linux基金会，重塑数据湖存储标准

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。

03

Presto 和 Trino Deltalake 原理调研和总结

最近在了解 Presto 和 Trino 对于 Deltalake Connector 的相关实现原理，这里了解完刚好用一篇文章总结下，一是可以帮助自己未来的回顾，二是也希望能够帮助大家，下面都是个人理解，若理解有误，欢迎指出，共勉。

01

让大模型融入工作的每个环节，数据巨头 Databricks 让生成式AI平民化 | 专访李潇

Databricks CEO Ali Ghodsi 曾表达过这样的观点：Databricks 的目标是实现数据普惠和 AI 普惠，数据普惠使得数据能够触达企业内的每一名员工，而 AI 普惠则将人工智能引入每一个产品中。他强调“每个组织都应该从 AI 革命中获益，并更好地掌控数据的使用方式。”在过去，Databricks 在 AI 领域积累了大量经验，如今在大模型的潮流下，他们不仅推出了自家的开源大模型 Dolly 2.0，还以 13 亿美元的价格收购了生成式 AI 公司 MosaicML，迅速强化了大模型方面的实力。最近，Databricks 发布了一系列创新产品，例如 Lakehouse IQ、AI Gateway, Unity Catalog 等。作为大数据领域的领军企业，我们相信 Databricks 正在塑造着未来。在 QCon 北京到来之际，我们采访了 Databricks Engineering Lead 李潇，以深入了解他们在数据领域的创新思想。

01

取代而非补充，Spark Summit 2014精彩回顾

Apache Spark开源生态系统在2014上半年大幅增长，已迅速成为大数据领域中最活跃的开源项目，HDFS位列第二，其代码变动次数（commits）和行数仅仅有Spark的一半：有超过50个机构250个工程师贡献过代码和去年六月相比，代码行数几乎扩大三倍。随着1.0版本于5月30日推出，Spark提供了一个稳定的API，开发人员可以依靠它来保证代码的兼容性。所有主流的Hadoop发行商，包括Hortonworks、IBM、Cloudera、MapR和Pivotal都提供了Spark的包装和技术支持

07

Hudi、Iceberg 和 Delta Lake：数据湖表格式比较

在构建数据湖时，可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

02

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下？

Lakehouse最早由Databricks公司提出，其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统，Lakehouse结合数据湖和数据仓库的优点：包括数据湖的低成本存储和开放数据格式访问，数据仓库强大的管理和优化能力。Delta Lake，Apache Hudi和Apache Iceberg是三种构建Lakehouse的技术。

02

Spark 学习资源收集【Updating】

（一）spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘：三种分布式部署方式比较 http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/ 3、idea上运行local的spark sql hive http://dataknock

09

spark君第一篇图文讲解Delta源码和实践的文章

Delta 原本是在 Databricks Runtime 里面的一个增值功能，在 spark + AI Summit 2019 大会上，官方以 Apache License 2.0 协议开源。

01

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 [Release Note](http://spark.apache.org/releases/spark-release-2-4-0.html) 里面果然一个 Spark Streaming 相关的 ticket 都没有。相比之下，Structured Streaming 有将近十个 ticket 说明。所以各位同学，是时候舍弃 Spark Streaming 转向 Structured Streaming 了，当然理由并不止于此。我们这篇文章就来分析一下 Spark Streaming 的不足，以及Structured Streaming 的设计初衷和思想是怎么样的。文章主要参考今年（2018 年）sigmod 上面的这篇论文：Structured Streaming: A Declarative API for Real-Time

02

为什么说Spark SQL远远超越了MPP SQLSpark SQL 成为了一种跨越领域的交互形态

这里说的并不是性能，因为我没尝试对比过（下文会有简单的说明），而是尝试从某种更高一层次的的角度去看，为什么Spark SQL 是远远超越MPP SQL的。

01

估值380亿美元！这家微软、谷歌、亚马逊都投资的AI初创公司什么来头？

昨日，人工智能大数据初创公司Databricks成功完成了16亿美元的H轮融资，其估值达到了380亿美元。

02

数据仓库与数据湖与湖仓一体：概述及比较

随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户，公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计，2017 年每天会生成 2.5 百亿字节的数据，到 2025 年，这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据，那么这些数据又有什么用呢？针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。

01

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要：今天我们就来解构数据湖的核心需求，同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案，帮助用户更好地针对自身场景来做数据湖方案选型。

02

Spark 1.3更新概述：176个贡献者，1000+ patches

近日，Databricks正式发布Spark 1.3版本。在此版本中，除下之前我们报道过的DataFrame API，此次升级还覆盖Streaming、ML、SQL等多个组件。当下，1.3版本已在 Apache Spark页面提供下载，下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括。 Spark SQL脱离Alpha版本在1.3版本中，Spark SQL正式脱离Alpha版本，提供了更好的SQL标准兼容。同时，Spark SQL数据源AP

04

专访Databricks辛湜，谈Spark排序比赛摘冠及生态圈热点

据Sort Benchmark最新消息，Databricks的Spark与加州大学圣地亚哥分校的TritonSort两个系统在2014 Daytona GraySort排序比赛上并列第一。其中，Tri

BDCC- 数据湖体系

数据湖是一种存储系统，底层包括不同的文件格式及湖表格式，可存储大量非结构化和半结构化的原始数据。

03

认识 DBOS：Kubernetes 的数据库替代方案

PostgreSQL 的创建者与 Apache Spark 的创建者合作，在分布式数据库之上构建了一个云操作系统，旨在提供比当今广泛使用的 Linux/K8s 组合更好的安全性，更低的管理复杂性。

01

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及优化其性能的技巧的见解。通过阅读本文，读者应该对Apache Hudi有扎实的理解，并了解如何在其数据处理流程中利用它的优势。

02

选型的目光瞄准Spark

在Spark社区，众多参与者已经在为Spark 1.4.0(RC2)推出的特性投票了。我之遗憾，在于我们暂时还未参与这项工程的创造工作；我之欣喜，在于我们可以毫无顾虑地借用它；最后，得以帮助这座大集市在人声鼎沸中彰显不羁的个性。 ♦ ♦ 在大数据分析平台，我们选择了Spark。这源于它的效率，它的快速演化，更在于我对它的偏爱。在理性挑选的基础上，感情的抉择成了火箭发射时最后一级的助力。从最早对0.9版本的使用到现在的1.3.1，我亲眼所见Spark迅猛的发展。它发力于通用与性能两大亮点之上，使得自己在众多

08

一个理想的数据湖应具备哪些功能？

从数据库到数据仓库，最后到数据湖[1]，随着数据量和数据源的增加，数据格局正在迅速变化。数据湖市场预计增长近 30%[2]，将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看，数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0，该趋势可能会增长，该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能，使数据湖成为该行业的支柱。治理、安全性、可扩展性以及对分析和交易数据的无缝分析，将会推动该领域创新。

04

Hadoop/Spark生态圈里的新气象

令人惊讶的是，Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分，以及它们各自具有的意义。对于Hadoop你需要了解的最重要的事情就是，它不再是原来的Hadoop。这

05

Spark SparkSession:一个新的入口

在 Spark 1.x 中，使用 HiveContext 作为 DataFrame API 的入口显得并不直观。在 Spark 2.0 引入 SparkSession 作为一个新的入口，并且包含 SQLContext 和 HiveContext 的特性，同时为了向后兼容，两者都保留下来。SparkSession 有很多特性，在这里我们展示一些更重要的特性。

05

python处理大数据表格

假设你有1亿条记录，有时候用到75%数据量，有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

01

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

04

数据湖YYDS！ Flink+IceBerg实时数据湖实践

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

02

数据湖YYDS！ Flink+IceBerg实时数据湖实践

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

01

想学spark但是没有集群也没有数据？没关系，我来教你白嫖一个！

今天要介绍的平台叫做databricks，它是spark的创建者开发的统一分析平台。单凭spark创建者这几个字大家应该就能体会到其中的分量，其中集成了Scala、Python和R语言的环境，可以让我们在线开发调用云端的spark集群进行计算。

04

自适应查询执行：在运行时提升Spark SQL执行性能

Catalyst是Spark SQL核心优化器，早期主要基于规则的优化器RBO，后期又引入基于代价进行优化的CBO。但是在这些版本中，Spark SQL执行计划一旦确定就不会改变。由于缺乏或者不准确的数据统计信息（如行数、不同值的数量、NULL值、最大/最小值等）和对成本的错误估算导致生成的初始计划不理想，从而导致执行效率相对低下。

01

写在 Spark3.0 发布之后的一篇随笔

Spark3.0 从2019年开始就说要准备发布了，然后就一直期待这个版本，毕竟对于 Spark 而言，这是一个大版本的跨越，从 2.4 直接到了 3.0，而之前发布都是 Spark2.0 到 Spark2.4 这种小版本的更新。按照 Databricks 博客的说法，这是一次“the culmination of tremendous contributions from the open-source community”(是开源社区有史以来贡献力度最大的一次)。事实上也是如此，最近发布的 Spark3.0 新特性没有让人失望。

01

挑战 Spark 和 Flink？大数据技术栈的突围和战争｜盘点

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或缺的基础设施。然而，在这个时刻，我们不禁要问：当前的大数据架构是否已经趋于完美？2023 年，伴随着人工智能的跃变式爆发，数据平台将如何演进，以适应未来的数据使用场景？

01

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

3位Committer，12场国内外技术实践，2016中国Spark技术峰会议题详解

源于2014年，由CSDN主办的中国Spark技术峰会已成功举办两届，而到了2016年，峰会更得到了Spark护航者Databricks的支持，所有议题均由Databricks联合创始人兼首席架构师Reynold Xin及峰会主席陈超联合把关。会议将于5月15日北京拉开帷幕，而在这里，笔者就将带大家初窥由Databricks、Hortonworks、Intel、Elastic、腾讯、新浪、AdMaster等国内外知名企业带来的共计12个议题分享。目前会议门票限时7折（截止至4月29日24点），详情访问官网

05

DataBricks新项目Delta Lake的深度分析和解读。

DataBricks最近新开源了一个项目Delta Lake。这其实不算是个新项目了。DataBricks在其商业版里面提供这样的功能已经有一段时日了。对我来说Delta Lake就是久闻大名，但是不知道庐山真面目。

03

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

Apache Kyuubi：一个有趣的大数据开源项目

新粉请关注我的公众号我很久没写大数据的东西了，最主要的原因是因为我不知道写啥。这个领域里面还在发生着很多事情，但是有深度的，有意义的事情不多，有趣的事情也不多。最近看到了Apache Kyuubi这个项目，应该严格的说是Apache Kyuubi（incubating）。项目还在孵化器中，并没有升级成为Apache的正式项目。这是一个挺有趣的项目，所以我打算来写写。我花了一点时间去了解这个项目的实际情况，发现这个项目是由网易开源的，还是有点吃惊。 Kyuubi是一个什么项目呢？我们用它自己的英文

01

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB Cloud 是为开源分布式数据库 TiDB 打造的全托管 DBaaS (Database-as-a-Service) 服务。

03

无数据不AI的狂欢！Databricks Data+AI峰会亮点总结

一年一度的 Databricks Data+AI 峰会于上周在旧金山 Moscone 会议中心热闹开展。作为全美乃至全球最大的科技会议之一，Data+AI 峰会自然吸引了大量数据与人工智能领域工作者的目光。而以往年不同的是，今年的峰会在举办之前便火药味十足。在今年早些时候，Databricks 与 Snowflake 这两家最大的云数据平台厂商便先后宣布将在同一时间，也就是六月最后一周，举行各自的年度会议。这意味着，广大科技工作者们只能在这两家公司的活动中做出二选一的艰难抉择。而在峰会期间，Databricks 更是大规模投放广告，直接叫板 Snowflake，高调宣称自家的数据湖仓相比于 Snowflake 拥有 9 倍性价比提升。

04

60位+超强讲师阵容！中国云计算技术大会部分讲师议题公布

由CSDN主办的2016中国云计算技术大会（CCTC）将于5月13日-15日在北京举行。作为业内最具价值的云计算年度技术盛会，今年大会为期三天，以“技术与应用，趋势与实践”为主题，除了顶尖技术专家云集的Keynote演讲，主办方还特设了“中国Spark技术峰会”、“OpenStack技术峰会”、“Container技术峰会”、“大数据核心技术与应用实战峰会”四大技术主题峰会以及“云计算核心技术架构”、“云计算平台构建与实践”等专场技术论坛。为保证演讲内容质量，主办方倾情邀请了几乎是国内最顶尖的技术讲师阵

03

Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员，也是 Spark SQL 的最初创建者，目前领导 Databricks 团队，设计和构建 Structured Streaming 和 Databricks Delta，技术涉及分布式系统、大规模结构化存储和查询优化等方面。

04

什么是Apache Spark？这篇文章带你从零基础学起

导读：Apache Spark是一个强大的开源处理引擎，最初由Matei Zaharia开发，是他在加州大学伯克利分校的博士论文的一部分。Spark的第一个版本于2012年发布。

06

最新大厂数据湖面试题，知识点总结（上万字建议收藏）

本文目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖？区别在于？八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比

02

专业工程师看过来~ | RDD、DataFrame和DataSet的细致区别

RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。RDD是分布式的Java对象

07

重磅 | Apache Spark 社区期待的 Delta Lake 开源了

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。目前 Delta Lake 项目地址为 https://delta.io/，代码维护地址 https://github.com/delta-io/delta。

03

StreamingPro 支持多输入，多输出配置

最近正好有个需求，就是从不同的数据库以及表里拉出数据，经过一定的处理放到ES里供查询，最好还能放个到parquet里，这样可以支持更复杂的SQL。之前StreamingPro是只能配置一个数据源的，所以做了些改造，方便配置多个数据源，以及多个写出。

02

scala-sparkML学习笔记：struct type tinyint size int indices array

CSV data source does not support struct<type:tinyint,size:int,indices:array<int>,values:array<double>> data type.

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭