首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark托管和非托管表

是指在Spark SQL中对数据进行管理和访问的两种方式。

  1. 托管表(Managed Table):
    • 概念:托管表是由Spark SQL进行管理的表,其元数据和数据都存储在Spark的元数据存储中(例如Hive Metastore)。
    • 分类:托管表可以进一步分为内部表(Internal Table)和外部表(External Table)。
    • 优势:托管表的优势在于Spark SQL可以自动管理其元数据和数据,包括数据的加载、存储、分区、压缩等,同时也支持事务和ACID特性。
    • 应用场景:适用于需要Spark SQL自动管理数据的场景,例如数据仓库、数据湖等。
  • 非托管表(Unmanaged Table):
    • 概念:非托管表是由用户自行管理的表,用户需要手动指定数据的位置和格式。
    • 分类:非托管表没有内部表和外部表的区别,因为Spark SQL不会对其进行管理。
    • 优势:非托管表的优势在于用户可以更加灵活地控制数据的位置和格式,适用于已经有现成数据的场景。
    • 应用场景:适用于用户已经有现成数据,并且希望自行管理数据的位置和格式的场景。

对于Spark托管和非托管表的使用,可以使用腾讯云的云原生数据仓库TDSQL-C和云原生数据湖TDSQL-D进行支持。

  • TDSQL-C:腾讯云原生数据仓库TDSQL-C是一种高性能、高可靠、弹性扩展的云原生数据仓库服务,支持Spark托管表的创建、管理和查询。详情请参考:腾讯云原生数据仓库TDSQL-C
  • TDSQL-D:腾讯云原生数据湖TDSQL-D是一种高性能、高可靠、弹性扩展的云原生数据湖服务,支持Spark非托管表的创建、管理和查询。详情请参考:腾讯云原生数据湖TDSQL-D
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

9分39秒

06_尚硅谷_Git_概述_工作机制和代码托管中心

1分53秒

08.尚硅谷_Git&GitHub_Git和代码托管中心.avi

1分53秒

08.尚硅谷_Git&GitHub_Git和代码托管中心.avi

6分22秒

Serverless云函数+API网关无服务器部署合成大西瓜小游戏

57分1秒

微信云托管企业实践 ——助力康师傅春节表情雨活动降本增效

13分10秒

【技术创作101训练营】Webify 一键部署网页应用

1.3K
10分14秒

腾讯云数据库前世今生——十数年技术探索 铸就云端数据利器

4分43秒

02_执行计划_准备测试数据和表

领券