开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何根据最新数据合并多个不同数据的SQL表，并在新数据为空的情况下保留旧数据？

要根据最新数据合并多个不同的SQL表，并在新数据为空的情况下保留旧数据，可以使用SQL的MERGE语句（在支持该语句的数据库系统中，如SQL Server、Oracle）或使用LEFT JOIN结合COALESCE函数（在大多数SQL数据库系统中都适用）。以下是两种方法的示例：

方法一：使用 `MERGE` 语句（适用于SQL Server和Oracle）

MERGE INTO TargetTable AS target
USING (
    SELECT Column1, Column2, ..., ColumnN
    FROM SourceTable1
    UNION ALL
    SELECT Column1, Column2, ..., ColumnN
    FROM SourceTable2
    -- 可以继续添加更多的源表
) AS source
ON target.PrimaryKey = source.PrimaryKey
WHEN MATCHED AND (source.NewDataColumn IS NOT NULL OR target.OldDataColumn IS NULL)
    THEN UPDATE SET target.Column1 = source.Column1, target.Column2 = source.Column2, ..., target.NewDataColumn = source.NewDataColumn
WHEN NOT MATCHED BY TARGET
    THEN INSERT (PrimaryKey, Column1, Column2, ..., OldDataColumn)
         VALUES (source.PrimaryKey, source.Column1, source.Column2, ..., source.NewDataColumn);

在这个例子中，TargetTable 是目标表，SourceTable1, SourceTable2 等是源表。PrimaryKey 是用于连接的键，NewDataColumn 和 OldDataColumn 分别代表新数据和旧数据。

方法二：使用 `LEFT JOIN` 和 `COALESCE` 函数

UPDATE TargetTable
SET Column1 = COALESCE(SourceTable1.Column1, TargetTable.Column1),
    Column2 = COALESCE(SourceTable1.Column2, TargetTable.Column2),
    ...,
    NewDataColumn = COALESCE(SourceTable1.NewDataColumn, TargetTable.OldDataColumn)
FROM TargetTable
LEFT JOIN SourceTable1 ON TargetTable.PrimaryKey = SourceTable1.PrimaryKey
UNION ALL
UPDATE TargetTable
SET Column1 = COALESCE(SourceTable2.Column1, TargetTable.Column1),
    Column2 = COALESCE(SourceTable2.Column2, TargetTable.Column2),
    ...,
    NewDataColumn = COALESCE(SourceTable2.NewDataColumn, TargetTable.OldDataColumn)
FROM TargetTable
LEFT JOIN SourceTable2 ON TargetTable.PrimaryKey = SourceTable2.PrimaryKey;

在这个例子中，COALESCE 函数用于选择非空值，如果源表中的新数据为空，则保留目标表中的旧数据。

应用场景

这种方法适用于需要定期更新数据库中的记录，同时保留历史数据的场景。例如，在一个电商网站中，你可能需要更新产品信息，但如果不更新某些字段（如产品ID或创建日期），则需要保留原有的信息。

注意事项

在执行这些操作之前，建议备份相关表，以防数据丢失。
确保PrimaryKey在所有涉及的表中是一致的，否则合并时会出现问题。
如果使用MERGE语句，需要注意其性能可能不如简单的UPDATE和INSERT组合，特别是在处理大量数据时。

以上方法可以根据具体的数据库系统和业务需求进行调整。如果需要进一步的帮助或者有特定的数据库系统，请提供更多信息。

相关搜索:在具有不同数据的情况下合并多个表 SQL合并不同的表数据计数如何清除选择框中的旧数据并在选择Javascript上填充新数据？将同一SQL数据库中不同表中的数据与表名合并从SQL查询中排除空值并保留数据帧中的旧值如何对数据帧进行重复数据删除，但保留和合并来自不同列的数据？用于在数据中存在空值时从多个列中获取最新数据的sql查询如何在保留两边数据的情况下合并具有数据帧的序列尝试合并来自多个csv的列，但合并的数据帧显示为空如何跟踪追加到SQL表中的新数据？仍为SQL数据透视表中的列获取空值如何使用SQL将不同的数据库表合并为一个表？根据Kusto中的一个键合并多个表中的数据如何在mysql中连接多个不同表的数据 Python:如何根据不同的列数合并到数据框中？SQL Server - 在不锁定数据的情况下合并大型表如何在excel中合并多个工作表中的数据？如何根据不同的值排除SQL查询中的某些数据？如何消费列表数据并在5个不同的表中显示如何通过合并来自R中不同数据帧的同名列来创建新的数据帧？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

聊聊流式数据湖Paimon(一)

Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。

01

Sentry 开发者贡献指南 - 数据库迁移

Django 迁移官方文档：https://docs.djangoproject.com/en/2.2/topics/migrations/。

02

Hudi基本概念

在本节中，我们将讨论重要的概念和术语，这些概念和术语有助于理解并有效使用这些原语。

05

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

04

Apache Paimon核心原理和Flink应用进阶

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章，你最好收藏一波。

01

Replacing、Summing、Aggregating、Collapsing和VersionedCollapsingMergeTree的区别和使用场景

ReplacingMergeTree和SummingMergeTree是ClickHouse中两种常用的MergeTree引擎。

09

Pandas | Dataframe的merge操作，像数据库一样尽情join

常见的数据合并操作主要有两种，第一种是我们新生成了新的特征，想要把它和旧的特征合并在一起。第二种是我们新获取了一份数据集，想要扩充旧的数据集。这两种合并操作在我们日常的工作当中非常寻常，那么究竟应该怎么操作呢？让我们一个一个来看。

01

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供足够的时间来完成运行。否则，Cleaner可能会删除该作业正在读取或可能被其读取的文件，并使该作业失败。通常，默认配置为10会允许每30分钟运行一次提取，以保留长达5（10 * 0.5）个小时的数据。如果以繁进行摄取，或者为查询提供更多运行时间，可增加 hoodie.cleaner.commits.retained配置项的值。

04

数据湖 | Apache Hudi 设计与架构最强解读

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

02

《数据密集型应用系统设计》读书笔记（三）

上一章讨论了数据模型与查询语言，即向数据库给出数据时数据的格式以及数据查询的机制，其可以理解为从应用开发者的角度出发讨论了上述两件事情。本章将从「数据库」的角度来进行讨论，即如何存储给出的数据以及如何在要求查询时找到所需的数据，所介绍的存储引擎可以用于传统的关系数据库和大多数 NoSQL 数据库。

05

Hudi关键术语及其概述

在其核心，Hudi维护了在不同时刻对表执行的所有操作的时间轴，这有助于提供表的瞬时视图，与此同时也有效地支持按到达顺序的数据检索。Hudi的瞬时特性包括以下部分：

02

一种多数据源索引同步设计

在我接触的很多应用开发中，搜索引擎（ElasticSearch）是充当业务宽表使用，也就是聚合多张业务表，免去线上查询的join操作。

01

Prometheus TSDB存储原理

Prometheus 包含一个存储在本地磁盘的时间序列数据库，同时也支持与远程存储系统集成，比如 grafana cloud 提供的免费云存储API，只需将 remote_write接口信息填写在Prometheus配置文件即可。

03

Apache Hudi 0.14.0版本重磅发布！

Apache Hudi 0.14.0 标志着一个重要的里程碑，具有一系列新功能和增强功能。其中包括引入Record Level Index、自动生成记录键、用于增量读取的 hudi_table_changes函数等等。值得注意的是，此版本还包含对 Spark 3.4 的支持。在 Flink 方面，0.14.0 版本带来了一些令人兴奋的功能，例如一致哈希索引支持、支持Flink 1.17 以及支持更新和删除语句。此外此版本还升级了Hudi表版本，提示用户查阅下面提供的迁移指南。我们鼓励用户在采用 0.14.0 版本之前查看重大特性、重大变化和行为变更。

03

初识 HBase

对大数据领域有一定了解的小伙伴对HBase应该不会陌生，HBase是Apache基金会开源的一个分布式非关系型数据库，属于Hadoop的组件。它使用Java编写，需运行于HDFS文件系统之上。HBase与Hadoop中的其他组件一样，可以运行在廉价硬件上，并可提供数10亿行 X 数百万列的大数据存储、管理能力，以及随机访问和实时读/写能力。HBase的设计模型参考了Google的Bigtable，可以说是Bigtable的开源实现版本。

02

Polardb X-engine 如何服务巨量数据情况下的业务（翻译）- 4

这开头还是介绍一下群，如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题，有需求都可以加群群内，可以解决你的问题。加群请微信联系 liuaustin3 ，（共2150人左右 1 + 2 + 3 + 4 +5）新入群的将默认分配达到5群）,另欢迎 OpenGauss 的技术人员加入。

01

零停机迁移 Postgres的正确方式

在这篇博文中，我们会介绍如何在零停机时间的前提下，使用 Bucardo 将 Postgres 数据库迁移到一个新实例上。我们将介绍如何避免常见的陷阱，比如数据丢失、性能下降和数据完整性故障等。我们已成功使用这一流程将我们的 Postgres 数据库从 9.5 版迁移到 Amazon RDS 上的 12.5 版，但该流程不只适用于 RDS，也不依赖 AWS 独有的任何内容。这种迁移策略应该能适用于任何自托管或托管的 Postgres。

02

流数据湖平台Apache Paimon（三）Flink进阶使用

当Sorted Run数量较少时，Paimon writer 将在单独的线程中异步执行压缩，因此记录可以连续写入表中。然而，为了避免Sorted Runs的无限增长，当Sorted Run的数量达到阈值时，writer将不得不暂停写入。下表属性确定阈值。

04

Apache Hudi 元数据字段揭秘

Apache Hudi 最初由Uber于 2016 年开发，旨在实现一个交易型数据湖，该数据湖可以快速可靠地支持更新，以支持公司拼车平台的大规模增长。Apache Hudi 现在被业内许多人广泛用于构建一些非常大规模的数据湖。Apache Hudi 为快速变化的环境中管理数据提供了一个有前途的解决方案。

02

程序员硬核“年终大扫除”，清理了数据库 70GB 空间

【导语】春节将至，俗话说“腊月二十四，掸尘扫房子”，很多人会在腊月二十四给家里做大扫除迎新春。

01

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

在本博客中，我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

02

Flink从1.7到1.12版本升级汇总

最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数.

02

Phoenix边讲架构边调优

一基础架构详解 1 概念讲调优之前，需要大家深入了解phoenix的架构，这样才能更好的调优。 Apache Phoenix在Hadoop中实现OLTP和运营分析，实现低延迟应用是通过结合下面两个优势：具有完整ACID事务功能的标准SQL和JDBC API的强大功能通过利用HBase作为后台存储，为NoSQL世界提供了late-bound, schema-on-read灵活的功能。 Apache Phoenix与其他Hadoop产品完全集成，如Spark，Hive，Pig，Flume和Map

08

Flink集成Iceberg在同程艺龙的实践

过去几年，数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时，二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构，而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下，2021 年我们将会看到更多“湖仓一体”的实际落地案例。InfoQ 希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现。本文将分享同程艺龙将 Flink 与 Iceberg 深度集成的落地经验和思考。

03

「首席看HANA」SAP HANA的秘密- 不要告诉任何人

简单的方法是两者都做，例如以柱状和行状两种格式存储数据。通过这种方式，用户可以访问其中之一，或者其他更有意义的。当然，这个选择是有代价的。在这种情况下，数据需要存储两次——将优点和缺点结合起来。

03

数据湖（十四）：Spark与Iceberg整合查询操作

Spark操作Iceberg不仅可以使用SQL方式查询Iceberg中的数据，还可以使用DataFrame方式加载Iceberg表中的数据，可以通过spark.table(Iceberg表名)或者spark.read.format("iceberg").load("iceberg data path")来加载对应Iceberg表中的数据，操作如下：

06

题库分库分表架构方案

在现在题库架构下，针对新购买的1300W多道数据进行整合，不影响现有功能。由于数据量偏多，需要进行数据的切分

01

MySQL 8.0中的新增功能

原文：https://mysqlserverteam.com/whats-new-in-mysql-8-0-generally-available/

03

（译）优化ORC和Parquet文件，提升大SQL读取性能

本文编译自IBM开发者社区，主要介绍了HDFS中小的ORC和Parquet文件的问题，以及这些小文件如何影响Big SQL的读取性能，并探索了为了提高读取性能，使用现有工具将小文件压缩为大文件的可能解决方案。

03

MySQL InnoDB Architecture 简要介绍

buffer pool 是主内存中的一块儿存储区域，用于存储访问的表及索引数据。这样从内存中直接访问获取使用的数据可以极大的提升访问效率。在一些特殊专用的服务里，几乎 80% 的内存区域都被赋于 buffer pool。

01

Apache Hudi从零到一：写入流程和操作（三）

在上一篇文章中，我们讨论了 Hudi 查询类型及其与 Spark 的集成。在这篇文章中，我们将深入研究另一个方面——写入流程，以 Spark 作为示例引擎。在写入数据时可以调整多种配置和设置。因此这篇文章的目的并不是作为完整的使用指南。相反主要目标是呈现内部数据流并分解所涉及的步骤。这将使读者更深入地了解运行和微调 Hudi 应用程序。各种实际使用示例请查阅Hudi的官方文档页面。

01

通过流式数据集成实现数据价值（5）- 流处理

但是，更常见的是，源数据与目标数据结构不匹配。这可能是因为某些源数据需要过滤掉。例如，可能不需要某些事件或事件的字段，因此将其删除。或者某些数据需要混淆，因为其中包含个人身份信息。在交付给目标之前，可能需要添加其他字段。或者，也许出于富集目的，流数据需要与一些参考数据结合在一起。流处理可以对所有收集的数据连续且低延迟地执行所有这些功能。

04

DDIA 笔记

本文为 design data-intensive applications 的读书笔记第一部分：数据系统的基石第一章：可靠性、可扩展性、可维护性现今很多应用程序都是数据密集型（data-intensive）的，而非计算密集型（compute- intensive）的。因此CPU很少成为这类应用的瓶颈，更大的问题通常来自数据量、数据复杂性、以及数据的变更速度。许多应用程序都需要：存储数据，以便自己或其他应用程序之后能再次找到（数据库（database））记住开销昂贵操作的结果，加

04

理论：第三章：索引使用的限制条件，sql优化有哪些，数据同步问题（缓存和数据库），缓存优化

索引使用的限制条件，sql优化有哪些 a,选取最适用的字段：在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。另外一个提高效率的方法是在可能的情况下，应该尽量把字段设置为NOTNULL， b,使用连接（JOIN）来代替子查询(Sub-Queries) c,使用联合(UNION)来代替手动创建的临时表 d,事物： a)要么语句块中每条语句都操作成功，要么都失败。换句话说，就是可以保持数据库中数据的一致性和完整性。事物以BEGIN关键字开始，COMMIT关键字结束。在这之间

02

关系数据库如何工作

当谈到关系数据库时，我不禁想到缺少了一些东西。它们到处都在使用。有许多不同的数据库：从小而有用的 SQLite 到强大的 Teradata。但是，只有几篇文章解释了数据库的工作原理。你可以自己谷歌“关系数据库是如何工作的”，看看有多少结果。而且，这些文章很短。现在，如果您寻找最新的流行技术（大数据、NoSQL 或 JavaScript），您会发现更深入的文章解释了它们的工作原理。

02

Apache Hudi初学者指南

客户在使用数据湖时通常会问一个问题：当源记录被更新时，如何更新数据湖？这是一个很难解决的问题，因为一旦你写了CSV或Parquet文件，唯一的选择就是重写它们，没有一种简单的机制可以打开这些文件，找到一条记录并用源代码中的最新值更新该记录，当数据湖中有多层数据集时，问题变得更加严重，数据集的输出将作为下次数据集计算的输入。

02

Hbase(四)：Hbase原理

hbase表中的数据按照行键的字典顺序排序 hbase表中的数据按照行的的方向切分为多个region 最开始只有一个region 随着数据量的增加产生分裂这个过程不停的进行一个表可能对应一个或多个region region是hbase表分布式存储和负载均衡的基本单元一个表的多个region可能分布在多台HRegionServer上 region是分布式存储的基本单元但不是存储的基本单元内部还具有结构一个region由多个Store来组成有几个store取决于表的列族的数量一个列族对应一个store 之所以这么设计是因为一个列族中的数据往往数据很类似方便与进行压缩节省存储空间表的一个列族对应一个store store的数量由表中列族的数量来决定一个store由一个memstore 和零个或多个storefile组成 storefile其实就是hdfs中的hfile 只能写入不能修改所以hbase写入数据到hdfs的过程其实是不断追加hfile的过程

01

基于 Apache Hudi 构建分析型数据湖

为了更好地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。

02

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们的目标为：建设口径统一的实时消耗数据，结合BI工具的自动化配置和展现能力，满足业务实时多维消耗分析，提高数据运营的效率和数据准确性。

01

聊聊维度建模的灵魂所在——维度表设计

维度表是维度建模的灵魂所在，在维度表设计中碰到的问题（比如维度变化、维度层次、维度一致性、维度整合和拆分等）都会直接关系到维度建模的好坏，因此良好的维表设计就显得至关重要，今天就让我们就一起来探究下关于维表设计的相关概念和一些技术。

04

Git使用教程（看完会了也懂了）

默认打开的地址是应该是用户目录，也就是c盘Users下某个地方，下面就先在固定的地址新建一个空的目录作为我们的新项目，叫做FastApiProject：

02

《SQL开发样式指南》，让你的SQL代码更加规范

当标准ANSI SQL关键字能完成相同的事情时，不要使用数据库服务器相关的关键字，这样能增强可移植性。

01

一文读懂如何处理缓慢变化的维度(SCD)

长期以来，Kimball方法一直是维度数据建模技术的标准。根据Kimball的说法，“时间概念渗透到数据仓库的每个角落”。这在数据分析的背景下意味着什么？在较高的层面上，现代分析可以被视为随着时间的推移不断变化的数据的聚合。问题在于，不断变化的数据不仅包括新的添加，还包括对先前数据集的更改。

02

为什么公共事业机构会偏爱 TiDB ：TiDB 数据库在某省妇幼健康管理系统的应用

本文介绍了某省妇幼健康管理系统的建设和数据库架构优化的过程。原有的数据库架构使用了 StarRocks 作为分析层，但随着业务的发展，这套架构暴露出诸多痛点，不再适应妇幼业务的需求。为解决这些问题，该系统选择了将原有架构中的 StarRocks 替换为 TiFlash 组件，并引入了 Yearning 自动化 SQL 审计平台，提高了运维效率和业务扩展能力。新架构在人力成本释放、运维成本降低等方面取得了显著的成效。

01

看完这一篇，ShardingSphere-jdbc 实战再也不怕了

谈到分库分表中间件时，我们自然而然的会想到 ShardingSphere-JDBC 。

05

ClickHouse 表引擎 & ClickHouse性能调优 - ClickHouse团队 Alexey Milovidov

显然RAM可能比磁盘慢，例如单个clnannel RAM与10倍 PCIe 4.0 SSD。

02

腾讯实时计算平台Oceanus建设实践

2019年4月1-2日，Flink Forward 2019 San Francisco会议在旧金山召开。Flink Forward会议邀请了来自Google, Uber, Netflix和Alibaba等公司在实时计算领域的顶尖专家和一线实践者，深入讨论了Flink社区的最新进展和发展趋势，以及Flink在业界的应用实践。随着近年来对Flink技术的广泛应用以及对Flink社区的活跃贡献，腾讯也受邀参加了会议并以主题Developing and Operating Real-Time Applications at Tencent介绍了腾讯大数据在实时计算平台建设上的工作。

03

Flink集成iceberg在生产环境中的实践

目前我们的大数据系统里，主要承接的业务是部门内的一些业务日志数据的统计、分析等，比如网关日志数据，服务器监控数据，k8s容器的相关日志数据，app的打点日志等。主要的流任务是flink任务是消费kafka的数据，经过各种处理之后通过flink sql或者flink jar实时写入hive，由于业务对数据的实时性要求比较高，希望数据能尽快的展示出来，所以我们很多的flink任务的checkpoint设置为1分钟，而数据格式采用的是orc格式，所以不可避免的出现了一个在大数据处理领域非常常见但是很麻烦的问题，即hdfs小文件问题。

04

Dive into Delta Lake | Delta Lake 尝鲜

Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。

01

开源OLAP系统的比较：ClickHouse、Druid和Pinot

从根本上讲，ClickHouse，Druid和Pinot都是相似的，因为它们在同一节点上存储数据并进行查询处理，这与去耦BigQuery体系结构不同。最近，我以Druid为例描述了一些固有的问题与耦合结构1，2）。目前没有与BigQuery等效的开源软件（也许是Drill吗？），我已经在本博文中探讨了构建此类开源系统的方法。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭