导语 | 腾讯云网络作为云的基础设施,其质量和稳定性直接影响了云的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要求。本文是腾讯云专家工程师陈政产老师在云+社区技术沙龙深圳站的分享整理,为大家详细介绍腾讯云网络运维平台的建设。
转眼又到春节,又到了亲朋好友大团圆的时刻。对程序猿和攻城狮来说,能否安安稳稳的过年就主要取决于网络是否安稳了,谁都不想在合家团圆吃年夜饭的时候因为网络故障加班。不过,过去这一年各种网络却是故障不断:
前言 腾讯云市场规模近几年飞速增长,承载的业务类型覆盖电商、直播、金融、互联网等越来越多的内外部用户核心业务;基础网络作为腾讯云极为重要的基础设施,采用高冗余设计很好的支撑了业务的高速发展,部分架构甚至达到128台设备冗余,像设备宕机,链路中断,协议收敛等常规故障,业务基本无感知。由于部分业务对网络故障非常灵敏,网络设备转发轻微丢包可能会有影响,针对此类场景,我们需要具备全面而准确的快速自愈能力,能又快又准地定位并隔离异常网络设备,以尽可能快的速度恢复业务。 传统商业网络设备本身具备一定的故障自愈能力
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待! 注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利; 注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com 前言: 互联网已经日益进入到人们的日常生活中,像支付、打
网络的能力直接决定着数据中心的算力,尤其是随着AIGC时代的到来,人们对算力的需求越来越大,网络的升级改造也成为每个数据中心关注的重点。
一、Tencent NOS概述 SONiC is an open source network operating system based on Linux that runs on switches from multiple vendors and ASICs. SONiC offers a full-suite of network functionality, like BGP and RDMA, that has been production-hardened in the data cen
陈浪交,腾讯云容器产品架构师团队负责人,负责腾讯云容器产品的售前、售后相关工作。 本文整理自腾讯云容器产品,容器解决方案架构团队的陈浪交在 Techo 开发者大会云原生专题的分享内容——一个优秀的云原生架构需要注意哪些地方。本文将会给大家分享云原生架构的特点和以及实践过程中的一些注意事项。 从CNCF给出的云原生官方的定义可以看出,云原生架构其实是一种方法论,没有对开发语言、框架、中间件等做限制,它是一些先进的设计理念的融合,包括容器、微服务、尽量解耦合、敏捷、容灾、频繁迭代、自动化等。 云计算发展到
腾讯云智能网关流控助力企业实现网络精细化管控,提升业务稳定性。通过IP-网关粒度的“监”与“控”,实现精确的网关故障排查和管控能力,降低网络故障时间。同时,可实时查询、TOP N排名功能,分析来源IP及其关键指标,快速定位异常流量,提升网络性能和稳定性。
陈浪交,腾讯云容器产品架构师团队负责人,负责腾讯云容器产品的售前、售后相关工作。 本文整理自腾讯云容器产品,容器解决方案架构团队的陈浪交在 Techo 开发者大会云原生专题的分享内容——一个优秀的云原生架构需要注意哪些地方。本文将会给大家分享云原生架构的特点和以及实践过程中的一些注意事项。 从CNCF给出的云原生官方的定义可以看出,云原生架构其实是一种方法论,没有对开发语言、框架、中间件等做限制,它是一些先进的设计理念的融合,包括容器、微服务、尽量解耦合、敏捷、容灾、频繁迭代、自动化等。 云计算发展到今天
IDC(互联网数据中心),是云计算的主要载体和最主要支点,IDC布局是否合理,规模化程度大小,不仅影响云计算是否能够持续发展,也影响着使用云计算服务的用户体验,更决定着云计算的成本是否合理。 传统的IDC布局,以网络为中心,造成IDC散、碎、小,阻碍大云时代的发展;采用IDC群的云基地模式,承载的服务器规模宏大,资源效率高,总体成本低,可以更高效的支撑云计算的发展与集约化。 1、当前IDC布局存在的主要问题 传统的IDC布局多靠近基础电信运营商的网络核心或骨干节点,像腾讯、百度、阿里等的IDC绝大多数都部
腾讯数据中心技能争霸赛 We Are Champions 2019年12月20日,第二届“腾讯数据中心技能争霸赛”总决赛,在深圳腾讯滨海大厦圆满落下帷幕。7支参加总决赛的队伍(共28人)从全国数百余位IT工程师中脱颖而出,角逐最终团体总冠军和四个单项冠军(服务器、网络、资产、安全)。 “数据中心技能争霸赛”是腾讯数据中心一线运维团队每年一度的技术盛会。今年,我们在上届大赛的基础上进行了赛制升级。不仅增加了“安全”这个全新竞赛单元;而且还将“服务器”、“网络”、“资产
背景 “618”年中购物节作为“全民狂欢”的代表,“万券齐发”“百亿购物金”“热爱狂欢趴”等花样繁多,优惠玩法以及由新兴直播带领线上与线下“全场景”的销售渠道,用户可以享受到各色各样的消费体验。在保障用户的使用体验和活动效果的过程中,我们经常会遇到网络质量问题、多页面大元素资源加载慢、接口调用异常等烦恼,导致线上用户体验差,用户流失直接影响企业品牌形象和经济收入。 烦恼表现: 1. 网络质量问题影响用户体验如何定位原因。 用户打开电商页面、查看商品图片快慢速度如何?差异原因在何处? 运营商 DNS 服务器
信息网络的应用逐渐渗透社会发展的各个领域,网络业务量的迅速膨胀给数据传输能力和大吞吐量的交叉能力提出了更高要求。11月22日,腾讯云正式发布Supermind智能网络产品。相比此前网络产品的特点,Supermind智能网络将拥有高性能、全球互联、智能化等三大特点。
TEG为腾讯提供互联网行业全方位的运营解决方案和服务支持,运营着亚洲最大的网络、服务器集群和数据中心,拥有业内领先的基础架构云运营平台、云数据处理平台、互联网海量应用支撑服务平台,为亿级用户提供云计费服务和安全保障。这背后离不开一群7*24小时默默耕耘,负责标准化模块化数据中心网络架构、大集群平台自动化建设与运营,以及运营系统相关规划和建设,提供高可用保障体系的伙伴们。
游戏的分类,按照策划和游戏玩法划分,会有若干个纬度:角色扮演、沙盒竞技、FPS、TPS、休闲舞蹈、音乐社交、SLG、二次元等等,粗略估计有二三十种分类,且无官方准确答案,因为玩法是随着市场需求变化而不断更迭的。
导读|云计算时代,承担服务器之间数据传输工作的交换机成了数据中心的“神经枢纽”,一旦出故障将波及上层业务。然而单个交换机故障时,腾讯云的新一代高性能网络却可以在100微秒内找到新的通路实现0断链,做到高可用、高可扩展、高性能,从而保证业务不受影响。本文邀请到了腾讯云资深网络专家金峰及其带领的IaaS前沿技术研究团队来揭秘背后的武器——高性能网络传输协议HARP。通过本文希望可以带你了解传统网络传输协议面临的困难和挑战、HARP是如何应对并全网首次解析其中4个关键技术。 腾讯云一直在自研一款高性能网络协议——
“2020 SONiC产业生态研讨会”于9月19日圆满落幕,腾讯网络平台部汤桢乾带来了主题演讲《腾讯自研交换机成长之路》。
👉 腾小云导读 近期大量 AIGC 产品横空出世,可以聊天、写代码、解答难题、写小说,饱受热捧。其技术基座大模型的给力支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么?腾讯的解决方案是什么?腾讯工程师何春志将带来最新解读。欢迎阅读。 ---- 👉 看目录,点收藏 1 业界主流 GPU 集群网络技术路线 2 如何创造AI训练集群下的极致性能网络 2.1 超带宽计算节点 2.2 多轨道流量聚
校验节点是数据存储的“边界”,节点之间的数据构成了存储的一个单位。服务器通过检查这些节点是否正常、完备,可以判断存储服务是否正常。
导言——AI 大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用 AI 的潜力成为近年 AI 领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10 万亿级别。 前几天横空出世的 AI 爆款产品 ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的 GPT3.5 大模型,参数量多达 1750 亿个。据报道,GPT3.5 的训练使用了微软专门建设的 AI 计算系统,由 1 万个 V100 GPU 组成的高性能网络集群,总算力消耗约 3640 PF-
最近小编老是会被问:如果抽出一块正常工作的服务器硬盘,结果会怎样? 数据会不会丢? 业务会不会受影响? 答案是,不会丢!不受影响! 保护“使命重大”的硬盘,分两步走: 先判断硬盘状态,看看数据丢没丢 如果一块正常工作的硬盘被抽出,服务器首先会做出反应。 服务器在硬盘读写数据时,设有特殊校验节点进行定时检查。 校验节点是数据存储的“边界”,节点之间的数据构成了存储的一个单位。服务器通过检查这些节点是否正常、完备,可以判断存储服务是否正常。 如果抽出的硬盘重新插入后,服务器发现节点正常,就会判断数
某游戏公司,BACKEND 服务集群在首尔。该公司不希望部署多套逻辑和数据层,从而降低成本,但又希望全球的客户能够接入,需要全局漂移 IP 作为访问的唯一入口,并可做全局的就近分配、动态流量分配、故障剔除
前言 打工人朴实无华的一天,刷乘车码坐车去上班,出示“粤康码“进大楼,打开企业微信处理工作,通过腾讯在线会议讨论项目进度,使用腾讯云创新项目,下班后通过腾讯课堂给自己充电,微信与家人沟通,通过视频号刷短视频休闲娱乐,这些互联网服务提高了我们工作效率,丰富我们的生活。 为了”网上生活不掉线“,腾讯网络运营团队一直与运营商伙伴保持密切沟通,通过“集约化”、“系统化”、“智能化”的三步走策略,与运营商展开了深度合作。在运营商的大力支持下,腾讯当前已与三大运营商联合建立了专属保障团队,全面增强
为应对迅猛发展的腾讯云业务对网络质量的极致追求,腾讯建立了基础网络测试实验室,显著减少了方案缺陷导致的网络故障。但随着基础网络规模的持续增长,生产网络架构复杂度快速升高,需求交付时间和测试环境限制导致的测试不充分问题愈发突出。如何优化测试能力,达到基础网络对质量的极致追求,本文将给出腾讯的答案。
题目虽然是“Windows IIS OCSP的开启和检测”,实际上检测方法是通用的,Web Server不限于是IIS还是Apache、Nginx等。
Hi 大家好,很高兴今天能有机会和大家进行这个分享。我是腾讯云负责IaaS网络产品策划的产品经理高航,今天和大家分享的主题是《人人都是网络工程师》。 网络是个很复杂的东西,经常晚上有美女家里上不
CCF-腾讯犀牛鸟基金于2013年由腾讯公司和中国计算机学会(CCF)共同发起,今年是基金发起的第10年。10年来,犀牛鸟基金致力于为海内外青年学者搭建产学合作创新的平台,推动科技在产业创新和社会发展中持续发挥价值。 本年度犀牛鸟基金设立12个技术领域共35项研究命题,我们分7期对各项命题进行详细介绍,本文重点聚焦密码学&数据库&网络技术领域,欢迎海内外优秀青年学者关注并申报。 10.密码学 10.1 不可信环境下的密钥保护研究与安全实现 不可信环境下的密钥保护一直是工业界的一大课题,密码安全控件实现的安全
CKafka荣获最高级认证 今天,由中国信通院和混沌工程实验室联合举办的混沌工程技术沙龙--金融行业精品专场在北京召开。本次技术沙龙上发布了金融级产品稳定性测评成果,在分布式系统稳定性评估体系的获奖名单中,腾讯云消息队列CKafka通过首批消息队列服务稳定性认证,荣获最高级别“先进级”认证,这项认证肯定了CKafka在数据安全性、系统稳定性上的产品能力和技术实力。 根据混沌测试报告显示,CKafka已通过单项故障注入测试(服务器宕机、服务发现故障、服务暂停、网络故障、CPU负载高、内存负载高)和综
前言 AI大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用AI的潜力成为近年AI领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10万亿级别。 前几天横空出世的AI爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的GPT3.5大模型,参数量多达1750亿个。据报道,GPT3.5的训练使用了微软专门建设的AI超算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640 PF-days (即假如每秒计算一千
著名的CAP理论指出,一个分布式系统不可能同时满足C(一致性)、A(可用性)和P(分区容错性)。由于分区容错性在是分布式系统中必须要保证的,因此我们只能在A和C之间进行权衡。在此Zookeeper保证的是CP, 而Eureka则是AP。
阿里灵骏智算产品有磐久可预期网络(参考:阿里整网络顶呱呱,整图苦哈哈!),腾讯也没闲着,星脉高性能计算网络为AI大模型构筑网络底座。
上周四下午,告警系统突然提示某位大客户的作业频繁发生崩溃和重启,现象是作业运行起来 2 分钟左右,JobManager 就发现有 TaskManager 心跳失联,随即出现作业崩溃重启,严重影响线上业务的运行。
大家好,又见面了,我是你们的朋友全栈君。 https://blog.csdn.net/Sun_P0/article/details/50221787 写在最前: 1.为什么学习并记录分布式设计理念一系列相关的东西 在日常工作中系统设计评审的时候,经常会有一些同事抛出一些概念,高可用性,一致性等等字眼,他们用这些最基本的概念去反驳系统最初的设计,但是很多人理解的可用性,一致性等等问题,都是自己拍脑袋想的,或者根本和最原始表达的意思就不是一个东西,在这种情况下PK,就像不再一个频段的人在交流,除了争论,没有
——腾讯与运营商的合作纪实 "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值! 前言 现代生活中,互联网已经渗透到了人们生活的方方面面,涵盖了社交、支付、娱乐和网络游戏等众多
随着移动互联网的发展,企业对云上网络安全隔离能力和互访能力、企业数据中心与云上网络互联、构建混合云的能力,以及在云上多地域部署业务后的多地域网络互联能力等,都推动着云网络进一步向前发展。
2.Eureka保证了可用性,Eureka各个节点是平等的,几个节点挂掉不会影响正常节点的工作,剩余的节点仍然可以提供注册和查询服务。而Eureka的客户端向某个Eureka注册或发现时发生连接失败,则会自动切换到其他节点,只要有一台Eureka还在,就能保证注册服务可用,只是查到的信息可能不是最新的。除此之外,Eureka还有自我保护机制,如果在15分钟内超过85%的节点没有正常的心跳,那么Eureka就认为客户端与注册中心发生了网络故障,此时会出现以下几种情况: ①、Eureka不在从注册列表中移除因为长时间没有收到心跳而应该过期的服务。 ②、Eureka仍然能够接受新服务的注册和查询请求,但是不会被同步到其他节点上(即保证当前节点仍然可用) ③、当网络稳定时,当前实例新的注册信息会被同步到其他节点。
之前发布了一篇文章《企业安全体系架构分析:开发安全架构之可用性架构》,其中粗略的讲解了一下可用性架构的设计理念,应读者要求,这篇文章将深入讲解什么是可用性架构。
2023年,以ChatGPT为代表的AIGC大模型全面崛起,成为了整个社会关注的焦点。
越来越多的公司正转向分布式云,这是一种全新的云计算方法。Gartner的分析师将分布式云计算列为2021年十大技术趋势之一。让我们看看为什么分布式云对业务有益,以及它们有什么优势。
01 十亿人都在用的健康码运维体系如何设计? 随着疫情防控模式的迭代,健康码访问DAU逐渐趋于下跌,意味着健康码将逐步完成历史使命,见证着疫情的结束。本文特邀腾讯研发工程师李雄政将从技术架构、可观测体系、运营保障体系等运维体系多方面,总结回顾健康码业务运营过程中的保障技术手段。 原文链接: | 十亿人都在用的健康码运维体系怎么设计? 更多运维主题文章推荐: | 发布变更又快又稳?腾讯运维工程师经验首发 | 欢乐斗地主平稳运行的运维妙计 02 算法工程师深度解构ChatGPT技术 ChatGPT以令人惊
服务注册中心,给客户端提供可供调用的服务列表,客户端在进行远程服务调用时,根据服务列表然后选择服务提供方的服务地址进行服务调用。服务注册中心在分布式系统中大量应用,是分布式系统中不可或缺的组件,例如rocketmq的name server,hdfs中的namenode,dubbo中的zk注册中心,spring cloud中的服务注册中心eureka。
李爽 腾讯应用性能观测产品经理,硕士毕业于卡内基梅隆大学。主要负责腾讯云业务层监控相关产品策划,拥有丰富 toB 全栈研发经验,对应用开发、监控、运维、CICD 等方面有深刻理解。 为什么需要网络质量监控? 如果说过去的互联网行业,是围绕着国内一线城市需求,快速发展成熟的十年。那么现在和未来的互联网行业,则是从一线城市扩展,对内下沉、对外拓展,以二三线城市及海外市场的需求拉动持续增长的时代。 一方面,随着通信基础设施的发展,互联网经济已经完成了从一线城市到二线、三线等城市、地区的扩展。已扩展到直播、电商、游
前言 随着腾讯云业务的不断发展,基础网络承载的业务类型和服务对象呈现极其复杂的多样性,这给网络的高可靠性带来了前所未有的挑战。腾讯自2018年开启基础网络自研之路,从端网协同的DCN(Data Center Network)到应云而生的DCI(Data Center Interconnection),腾讯基础网络在满足极其复杂多样的需求时,仍在极力追求着极致的网络质量。在部署生产网络前,对预期的网络行为进行验证,则是保障生产网络的一个行之有效的手段。然而,传统网络验证方式在面对不断增长的网络规模和业
各位鹅厂的粉丝们,尔们好,今天首次与大家见面,请多多关照哦!在俺们鹅厂网事这里,大家将从鹅厂基础架构网络技术、架构方向、运营案例、研发经验、业务百态等多维度,看到我们很多干货经验、参与到我们诸多前瞻风暴、感受到我们超大正能量,期待大家的关注和支持! 创刊号精选,耗费了小鹅几个月的时间,突然一天惊醒发现,云计算产业在发生很根本的一个变化,将对基础网络产生巨大的挑战和机遇,你看,fackbook把数据中心建到美帝中北部北卡去了、亚马逊也来中国宁夏卖云资源了、电联移三大运营商也投资数百亿到内蒙古、贵州等地建立超大
创建V**连接由于我们会在北京、中国香港和日本三个地域部署Kubernetes集群,所以第一步是建立这三个地域之间的V**连接,确保不同地域的机器之间可以互通。这里我们在北京地域创建一个V**网关,然后分别创建通道连接中国香港和日本地域。
前言 团队协作和进步把控能力是开发公司的生命线,不能按时交付项目的话在很多公司都不受待见。到了一家新公司,突然发现公司是自建的代码托管系统?从此你不但每天要勤勤恳恳写代码,还等随时准备应对日常各种硬件
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,就在大家争相发大模型的时候,鹅厂另辟蹊径在算力上下手了。 刚刚,腾讯云最新一代HCC(High-Performance Computing Cluster)高性能计算集群,来了! 面向大模型训练,采用最新一代腾讯云星星海自研服务器,搭载了NVIDIA H800 Tensor Core GPU,可提供业界目前最高的3.2T超高互联带宽。 实测结果显示,腾讯云新一代集群的算力性能较前代提升高达3倍。 以训练自家大模型效果为例——万亿参数的混元NLP大
领取专属 10元无门槛券
手把手带您无忧上云