首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    京东自建数据中心核心技术解密——运营管理篇

    随着电子商务、云计算、大数据、人工智能、互联网金融等应用的快速发展,数据中心单体规模越来越大、系统越来越复杂,应对的挑战也越来越多。 一个好的数据中心需要通过科学的运维管理,充分利用技术和设备资源,将运行成本降到最低,同时能源利用率最大化。 京东在宿迁的自建数据中心,按照世界一流数据中心的理念设计和建设,也按照国际先进的运营管理模式投入运行。 作为数据中心生命周期中最重要的一环,如何针对基础设施,各种IT设备,信息与数据,应用软件等各方面展开数据中心的运维管理,为基础设施和信息系统提供稳定可靠的运行环境,确

    08

    腾讯云 TKE Everywhere 特性发布,用户可在自有基础设施中托管 K8s 服务

    孔令飞,腾讯云资深工程师,拥有大规模 Kubernetes 集群、微服务的研发和架构经验,目前专注于云原生混合云领域的基础架构开发。 朱翔,腾讯云容器服务高级产品经理,目前负责云原生混合云产品方案设计工作。 前言 企业数字化转型已经成为企业的核心战略。以云计算为核心的新一代 IT 技术,成为了企业数字化转型的重要支撑,上云成为企业数字化转型的必由之路。企业在上云过程中由于数据安全隐私、资源利旧、业务容灾等原因,在上云时通常会采用混合云的架构,混合云成为企业上云新常态。 近几年,随着云原生技术在云计算市场

    02

    京东物流仓储系统618大促保障背后的运维秘诀

    前言 京东物流极速的购物体验背后隐藏着怎样的秘诀?仓储和配送时效是其中最为关键的一环。京东物流超强仓配体系,特别是在电商行业中独有的仓储系统,在其中起到了决定性的作用。 当前京东的库房已经遍布全国,京东仓储管理系统(简称WMS系统)是最核心的生产系统,涵盖了从入库,复核,打包,出库、库存和报表等等环节。 而作为系统最后端的数据库,不仅仅承担着存储数据的任务,还是系统可用性的最后一道防线,如何保证仓储系统数据库的高性能和高可用,直接决定了库房生产是否能顺畅进行。 在本篇我们将会详细介绍京东物流仓储系统的数据

    03

    探寻腾讯云基石,走进腾讯上海青浦数据中心

    互联网企业是数据中心建设和应用的大户,现在越来越多的企业选择了第三方数据中心,也成为了产业的发展趋势,在腾讯云的引领下,也正在掀起互联网+云服务的变革。而数据中心一直是至关重要的基础设施,保障着所有数据及业务的可靠、高效运行。12月9-10日,腾讯数据中心第二届分享日移师上海,并以“基石长固,腾云共舞”为主题,向大家诠释了“云+数据中心”的极致融合,并向大家开放采用第三代数据中心技术建设的腾讯上海青浦数据中心。 1分享日 “云+数据中心”探索,腾讯数据中心助力腾讯云腾飞 腾讯云是中国云计算业务的主要提供商

    05

    运行无间之漫谈IT运维

    一、缘起 软件工程有的时候与养孩子有点相似:虽然生育的过程是痛苦和困难的,但是养孩子的过程才是真正需要花费大部分精力的地方。在现实中,我们却发现人们往往将绝大多数的精力与资源花费在了讨论如何构建软件方面,而其后续的可维护性方面的工作却考虑的极少。我们在大学软件工程课程中也学过,从软件生命周期的角度看,软件开发阶段只占整个生命周期的20%~30%,软件运行维护阶段才是最长尾的,这个规律放在现在仍然适用。从以上的视角来看,在软件工程行业,至少应该有两类职业:第一类职业专注于设计和构建软件系统,另外一类职业就是专注于整个软件系统生命周期的管理。从其设计开始一直到部署、运行,历经不断改进,优化,最后退役为止。就是这样一类职业,它和其他的职业的专注点不同且必须具备非常广泛的技能,我们将它称之为IT  Operations。 二、运维是什么 运维,英文原文是IT Operations翻译过来就是IT运维,根据中文,对“运维”这个词进行拆解就是“运行+维护”。这个拆解隐含了对运维工程师工作职责的最基本要求。那么到底什么是运维呢?在我的理解,运维即服务,好的服务体系是系统稳定运行的坚实基础和有力保障。我们的工作职责就是保障生产系统的安全、稳定、可靠的运行,确保服务7*24小时不间断。 三、运维的价值 运维的价值主要体现在如下几个方面:提高业务运营质量、用户满意度,保障系统安全、稳定、可靠的运行及服务的可用性,降低业务运营成本,在提高IT服务质量的同时为企业与客户创造更多的商业价值等。 四、谈谈我们的工作 (一)岗位要求 运维是一个融合多学科(网络、操作系统、数据库、中间件、开发、测试、安全、协议、算法、数据结构、架构、存储、强弱电等)的综合性技术工种。一名优秀的运维工程师,需要在多个技术领域中,精通某几项技能,才能够胜任该工作,同时还要对业内前沿技术发展趋势实时跟进、掌控。 (二)人员素质要求 良好的沟通表达能力、工作认真仔细,注意细节、能够扛得住较大压力、知识面广、有较强的责任心,工作态度端正,积极主动,执行力强、学习,创新能力强、极强的安全意识和对问题刨根问底的精神。 (三)岗位职责 以系统稳定性为目标,负责系统的可用性、性能、效率、服务请求、变更管理、监控、应急响应和容量管理等工作。 (四)工作内容 日常主要工作内容如下:服务级别管理、能力管理、业务连续性管理、事件管理、问题管理、变更管理、配置管理、发布管理、备份管理、容量管理、可用性管理、安全管理、知识管理、系统监控、例行巡检、性能优化、应急响应、问题处置、生产问题复盘、服务请求、IT架构规划设计、系统部署、双活建设、容灾建设、切换演练、系统软件升级及补丁修复等工作。 (五)运维服务体系建设 运维作为一个细分的IT专业领域,在运维服务体系建设方面是有技巧和章法的。一个好的运维服务体系的建立是需要一个懂运维的管理者花费很多心思和精力,经过反复的打磨,不断改进构建起来的,绝非凭空起高楼。一般业界会参考借鉴ITIL与业务连续性管理BCM,ISO 22301等体系标准来构建适合于企业自身的运维体系。 一般情况下一个好的运维服务体系建设应遵循如下原则: (1)以完善的运维服务制度、流程为基础; (2)以先进、成熟的运维管理工具为手段; (3)以高素质的运维服务团队为保障; (4)以科学合理的考核指标为导向。 具体落地措施如下: (1)制定运维服务标准与规范; (2)搭建运维服务台,全方位接受服务请求; (3)规范事件管理,建立完善的突然事件应对机制; (4)规范问题管理,建立故障分析的长效机制; (5)规范变更管理,建立谨慎的变更管理机制; (6)收集基础资料,建立完备的CMDB管理系统; (7)制定绩效考核办法,加强监督检查,严格考核运维人员。 (六)运行无间最佳实践之运行保障示例 (1)问题预防 对即将投产的系统进行评审,从系统的健壮性、可扩展性、可维护性及部署规范等方面进行评审是否满足上线的标准和要求。 对每天的变更与应用发布进行集中评审,严格按照变更与发布的标准与变更红线进行审核是否满足投产条件。 按照运维计划,定期组织实战切换演练,模拟生产故障,验证系统的健壮性以及提高运维人员的应急处置能力。 (2)运行监控 监控是运维人员的眼睛,能够帮助运维人员快速发现定位问题,减少业务中断时间,提高故障处理效率。目前业内均已实现全维度监控,也就是说运维人员要从各个维度监控系统的健康状况,比如IDC机房、网络、存储、操作系统、数据库、中间件、应用、系统和业务层面。运行监控人员会7*24小时进行值守,一旦系统抛出告警,值守人员确保5分钟内电话通知到一线运维人员及时介入处置。 (3)故障响应 一线运维人员在接到告警后,会进行初步的判断,对业务的影响,是否需要进行升级,是否需要协同其他条线或者二线专家的介入。 (4)故障

    02
    领券