首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

雅虎PB云对象存储COS实践:选择Ceph,放弃Swift

本文介绍了雅虎PB云对象存储COS解决方案的实践,解释了选择Ceph放弃Swift的原因,部署的架构及其实现,耐用性和延迟方面的优化以及未来的研发方向等。...在与Flicker的合作下雅虎已经对该方案进行了多PB的初始部署。并且计划在2015年把COS作为多租户的托管服务,继续通过支持Flicker、雅虎邮件和Tumblr来把COS的部数量提升十倍。...未来COS将存储数百PB的数据! COS用的是Ceph COS的部署中应用到了Ceph存储技术。...经过多次软件的调整和试运行之后,现在每个Ceph集群的部署大约能达到3PB的原始数据,并且无论在进行通常操作还是在做故障恢复的时候都能提供可预测的延迟。...规模上:我们已经初始部署了一个多PB解决方案。在2015年,我们计划将其增长10倍以上,把它用到邮件,视频,Tumblr等,实现像在Flickr那样的增长。

1.8K50

腾讯 PB 大数据计算如何做到秒

在开放融合的 Data Cloud 上,业务方可以消费完整的数据生命周期,从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。...Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。...日均处理数据量 PB ,P90 查询耗时为 50s,全面提升各业务数据实时分析性能,有效助力业务增长。...得益于 Presto 的多数据源访问能力,天穹 Presto 支持对接了 Hive、Iceberg、MySQL 等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的 TDW Connnector...4.4 Optimized Repartitioning 天穹 Presto 每天的业务查询 Exchange 的数据量达到了上百 PB 级别,为了提升 Repartitioning 阶段的性能,我们在生产环境中启用了社区的

1.6K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【金猿技术展】Kyligence 智能分层存储——PB规模数据的全场景OLAP

    同时,基于 HDFS/对象存储和 Clickhouse 的两存储设计,可全面覆盖各种分析场景,为用户带来基于海量数据下分析探索的更多可能性。...智能分层存储不仅能够支持多维度随机组合的灵活即席查询场景,比如标签分析或用户行为分析等场景,为企业的精细化运营和辅助商业决策带来更大的助力;同时分层存储可对接 Kyligence 统一的模型来管理数据,...Kyligence 在产品存储的架构进行了分层设计: • 第一层:MPP 引擎层——将数据存储在 ClickHouse 引擎中(目前仅存放表索引) • 第二层:分布式存储层——将数据存储在 HDFS /...对象存储中(存放预计算后的聚合索引) • 第三层:查询下压层——查询可下推到其他数据源,如 SparkSql 以及各类 RDBMS 系统 启用智能分层存储后,用户无需关心数据是如何分布和导入的,只需要根据业务需求进行建立模型...具体来看智能分层存储支撑的业务场景: (图片来源:Kyligence) 智能分层存储的分层结构可以很好的支撑企业过去用一套架构不能方便支持的场景,比如现在最流行的用户画像分析场景。

    29320

    揭秘Robinhood扩展和管理PB规模Lakehouse架构

    Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,Robinhood 的数据团队如何基于 Apache Hudi 和相关 OSS 服务来处理数 PB...规模的指数增长。...实施 Robinhood 数据Lakehouse架构 Robinhood 数据 Lakehouse 生态系统支持超过一万个数据源,处理数 PB 数据集,并处理数据新鲜度模式(从近实时流到静态)、数据关键性...分层架构所依赖的主要功能包括: • 基于元数据区分不同层表的能力,Hudi 通过其存储层抽象支持元数据 • 通过 Debezium 连接器隔离实现资源隔离、Hudi RDBMS 功能支持的计算和存储以及...需要能够根据需要删除整个 PB 级数据湖库中单个用户的所有 PII。这必须快速、高效地完成,并且不能影响其他用户。

    15110

    天穹SuperSQL如何把腾讯 PB 大数据计算做到秒

    在开放融合的Data Cloud上,业务方可以消费完整的数据生命周期,从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。...Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。...日均处理数据量PB,P90查询耗时为50s,全面提升各业务数据实时分析性能,有效助力业务增长。...得益于Presto的多数据源访问能力,天穹Presto支持对接了Hive、Iceberg、MySQL等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的TDW Connnector,支持访问腾讯内部的数据仓库数据...4.4  Optimized Repartitioning  天穹Presto每天的业务查询Exchange的数据量达到了上百PB级别,为了提升Repartitioning阶段的性能,我们在生产环境中启用了社区的

    1.8K41

    万亿企业MySQL海量存储分库分表设计实践

    互联网业务往往使用MySQL数据库作为后台存储存储引擎使用InnoDB。我们针对互联网自身业务特点及MySQL数据库特性,讲述在具体业务场景中如何设计表和分表。...本文从介绍MySQL相关基础架构设计入手,并结合企业实际案例介绍分表和索引的设计实战技巧。 - 01、什么是InnoDB记录存储方式?...InnoDB就是这么做的,所以我们也称非主键列上的索引为二索引(因为一次查询需要查找两个索引树) 二索引有以下特点: 1、除了主键索引以外的索引; 2、索引结构叶子节点中的Data是主键值; 3、一次查询需要查找自身和主键两个索引...还有一种方案我们可以利用InnoDB覆盖索引的特性,在uid和switch两列上创建联合索引,这样在二索引上包含uid和switch两列的值,这样用uid查询switch时,只通过二所以就能找到switch...,不需要访问记录,甚至不需要到二索引的叶子节点就可以找到要查询的switch值,查询效率非常高。

    92320

    基于腾讯云COS对象存储的文件存储网关部署 单目录挂载1PB!

    一、方案目的介绍 目标客户群体:企业文件共享,大数据企业等使用内部文件服务实现云端灾备服务,实现目录挂载1PB 方案目标:实现企业云端或本地文件服务器的云端海量数据存储和备份,支持热点数据实时调备 使用产品...“文件存储网关”镜像 [rrz0lkzkxi.jpg] 2.3为云主机配置至少两块云数据盘(这里我添加了10G和30G的云盘) 注:存储网关有缓存盘和元数据存储盘,元数据存储盘至少要比缓存盘大1.5倍...账户:csguser 密码:csg123 [xdybtyuerk.jpg] 3.创建激活文件存储网关,关联存储桶。...本次可以看到挂载的是1PB大小的一个存储桶。...,是想拓展腾讯云COS对象存储+云主机CVM的共享存储解决方案实践, (1) 存储资源分配、海量存储 (2) 冷热数据分离、备份及归档 (3) 灾难恢复、数据处理及分发 8.实践问题汇总: (1)配置存储网关的配置至少要

    5.8K101

    PB大规模Elasticsearch集群运维与调优实践

    XX公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按10TB的数据量算,一年也得有个3PB多的数据,这么大的数量,都放在SSD云盘上,我们的成本太高了...v; 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH...但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES报错执行任务超时。...在上述的场景4-7中,我们花费大量的精力去解决问题和优化使用方式,保证ES集群能够稳定运行,支持PB级别的存储。...可以想象得到的好处有: 只需要更小规模的集群和非常廉价的COS/S3对象存储就可以支持PB级别的数据量,客户的资金成本非常低 小规模的集群只需要能够支撑热索引的写入和查询即可,集群整体的分片数不会太多,

    1.9K94

    PB大规模Elasticsearch集群运维与调优实践

    XX公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按10TB的数据量算,一年也得有个3PB多的数据,这么大的数量,都放在SSD云盘上,我们的成本太高了...v; 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH...但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES报错执行任务超时。...在上述的场景4-7中,我们花费大量的精力去解决问题和优化使用方式,保证ES集群能够稳定运行,支持PB级别的存储。...可以想象得到的好处有: 只需要更小规模的集群和非常廉价的COS/S3对象存储就可以支持PB级别的数据量,客户的资金成本非常低 小规模的集群只需要能够支撑热索引的写入和查询即可,集群整体的分片数不会太多,

    1.5K30

    PB海量数据服务平台架构设计实践

    基于PB海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论: 实践背景 该数据服务平台架构设计之初...技术选型 技术选型,主要从如下几个方面进行考虑: 数据存储 原始数据存储 数据量级达到PB,所以,作为整个数据服务平台的最初输入数据,我们称为数据服务平台的原始数据,后续简称原始数据,这些原始数据是直接存储在...分布式关系数据存储 对于PB的数据,想要在数据服务平台中快速为用户提供数据服务,根据业务特点,存储在适合快速加载、快速计算的分布式数据存储系统中。...这些元数据,为支撑应用计算使用,被存储MySQL数据库中;而对于填充页面上对应的条件选择的数据,则使用Redis存储,每天/月会根据MySQL中的数据进行加工处理,生成易于快速查询的键值对类数据,存储到...这里面,稍有点复杂的是,作业是一调度,任务是二调度,但是要保证属于同一个作业的任务能够按照先后顺序被调度运行。

    2.2K60

    PB 大规模 Elasticsearch 集群运维与调优实践

    ,不能删除数据,每天就按 10TB 的数据量算,一年也得有个 3PB 多的数据,这么大的数量,都放在 SSD 云盘上,成本太高了。...v 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH...但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES 报错执行任务超时。...在上述的场景中,我们花费大量的精力去解决问题和优化使用方式,保证 ES 集群能够稳定运行,支持 PB 级别的存储。...可以想象得到的好处有: 只需要更小规模的集群和非常廉价的 COS/S3 对象存储就可以支持 PB 级别的数据量,客户的资金成本非常低; 小规模的集群只需要能够支撑热索引的写入和查询即可,集群整体的分片数不会太多

    58210

    MySQL存储过程_MySQL创建存储过程

    什么是存储过程 存储过程就是事先经过编译并存储在数据库中的一段 SQL 语句的集合; 为什么使用存储过程 调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是有好处的...([ 参数 ]); 调用上面的存储过程 call p1(); 3、查看存储过程 SHOW CREATE PROCEDURE 存储过程名称 ; -- 查询某个存储过程的定义 4、删除存储过程 DROP...delimiter 指定SQL语句的结束符 存储过程中的变量 在MySQL中,变量一般可分为分为三种类型: 系统变量、用户定义变量、局部变量; 一、系统变量 系统变量是MySQL服务器系统自身提供的...注意点: mysql服务重新启动之后,所设置的全局参数会失效,要想不失效,可以在 /etc/my.cnf 中配置; 全局变量(GLOBAL): 全局变量针对于所有的会话; 会话变量(SESSION):...循环语句在编程中经常被用到,常用于对批量的数据进行循环处理,在mysql存储过程中,也提供了几种常用的循环语句,包括:while循环,repeat循环,和loop循环; 1、while循环语句 while

    22.2K21

    MySQLMySQL 存储过程

    MySQL 存储过程(了解) 1 什么是存储过程 MySQL 5.0 版本开始支持存储过程 存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据 库对象。...存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过 指定存储过程的名字并给定参数(需要时)来调用执行。 简单理解: 存储过程其实就是一堆 SQL 语句的合并。...中间加入了一些逻辑控制 2 存储过程的优缺点 优点:   存储过程一旦调试完成后,就可以稳定运行,(前提是,业务需求要相对稳定,没有变化)   存储过程减少业务系统与数据库的交互,降低耦合...,数据库交互更加快捷(应用服务器,与 数据库服务器不在同一个地区) 缺点:    在互联网行业中,大量使用MySQLMySQL存储过程与Oracle的相比较弱,所以较少使用,并且互联网行业需求变化较快也是原因之一...goods; END $$ 3) 调用存储过程 语法格式 call 存储过程名 -- 调用存储过程 查询goods表所有数据 call goods_proc; 方式2 1) IN 输入参数:表示调用者向存储过程传入值

    16.1K10
    领券