00:05
各位线上的朋友们大家好,欢迎参加腾讯中小企业在线学堂系列直播活动,我是本次会议的主持人张小平。中小企业在线学堂围绕中小企业业务需求,聚焦企业经营管理、应用工具、技术创新、安全底座四大需求场景,推出系列直播课程,全面助力中小企业数字化升级。大规模的计算用量,企业需要利用仿真计算驱动设计公司自建高性能计算环境,投资大、周期长,需求难以得到持续满足。利用云上算力,如何帮助中小企业迅速搭建云上仿真算力平台?计算任务需在短时间调用大量算力资源,如何实现弹性扩容、按需计量?云上仿真计算如何保证计算过程的安全与稳定性能?本期直播将为您揭秘腾讯云云上仿真计算新模式。
01:10
首先有请今天的第一位分享嘉宾,1WORKS数字化企业网CEO黄培。黄老师目前担任国家智能制造专业委员会委员、国际智能制造联盟副秘书长、中国人工智能学会智能制造专业副主任。湖北机械工副理事长、湖北工能会副理事长,在能有丰富经验,为数百家企业提供过信息化咨询服务,曾荣获国家科技进步二等奖。今天黄老师的分享主题是制造业数字化转型与仿真技术应用,有请。大家好,我是E数字化企业网的CEO黄培。
02:03
那么非常欢迎大家出席今天的研讨会啊,我今天给大家分享的内容是制造业数字化仿真技术用。那么我呢,一直从事智能制造方面的相关研究工作啊,那么呃,也担任相关的一些这个协会组织的职务啊,那么过去的21年来呢,我们一直做智能制造的枢纽平台。那么大家可以看到,当前的数字化大潮已经来临。无论是从移动互联网的普及,还是5G的商用啊,另外大家可以看到云计算现在也得到了非常广泛的应用。啊,那么像最近我也体验了这个腾讯啊,去参观了腾讯的体验中心,那么他们现在在贵安新区呢,建立了这种模块化的数据中心啊,这个可以快速的建各种服务的平台。另外这个当前的这个计算能力和存储能力迅速提升。
03:04
成本迅速下降。而这人工智能应用正在兴起啊,尤其是现在的大模型,从通用的大模型到行业大模型,也日益开始在各个行业发挥更大的作用。那么机器人应用呢?在过去的20年也取得了蓬勃的发展,现在有多种类型的机器人,包括这种六轴的机器人,四轴的机器人,还有机器人,并联机器人,甚至这种移动的机器。那么在制造方面呢,制造技术啊,那么它其实和数字技术息息相关啊,那么也得到了迅速的发展,尤其是金属的制造技术。啊,那么也就是说由设计人员来给进一些边界条件和相关的参数,有软件的自动创成它的这个强度最。
04:10
那这些年物联网和传感器也得到了广泛的应用,那么产生了海量的数据啊,工业物联网应用也正在兴起。同时,虚拟现实以及数字孪技术也到了企业广泛关注。所以这么多的数字技术在过去的20年时间里面呢,蓬勃发展为制造业。转型升级带来了新的这样一个驱动力。那么制造业如何进行字化型呢?我们纳了种式,首先商模式的么,制造业企业都是的产品,那么现在正在向卖产品加服务转型,甚至在装备制造行业,可以按照服务使用的绩效来付费。推进服务型制造,那么使得这个制造企业可以啊,针对老客户持续的获得一些销售收入。
05:05
那么第二个方面就是研发模式转型。也是我们今天重点要探讨的方向。那么首先是仿真驱动设计。那么第二是机电一体化设计支持异地协发,那么更多的从向工程走向正向研发。第三呢是制造模式型企业,很动化统和系统脱节。现企业正在致力实现O合。同时在制造方面呢,也基于这种数字技术的发展来推进柔性制造系统的应用。在营销模式转型方面,现在有很多工业电商平台也日益得到了广泛的应用。比如说像有些平台,它的这个货柜就直接开到了企业车间里面,可以进行这种工业电商的营销。所以呢,对于营销的知识管理,营销的数字化移动化销售电商这些应用啊,那么也非常的普及。
06:03
在。自助服务的机器人,那么同时呢,基于工业物联网推进预测性维护。在运行模式啊,运营模式方面呢。企业也可以积极的利用啊,这种各种移动的办公啊,移动应用,实现基于角色啊,把相关的数据传到相关的责任人进行正确的处理。那么最终的企业可以实现数据驱动,驱动决策啊,实现决策模式的转型啊,由这种基于经验拍脑袋决策走向真正基于多维度的数据啊,包括结构化的数据和一些各种工业大数据来推进决策。那么在这个数字化技术应用领域啊,非常重要的就是产品创新,数字化就是支持产品研发的数字技术。那么这实际上也是我们制要升级的升。
07:05
那么在这个领域呢,现在也有若干的热点,比如说数字孪生技术支撑产品和工厂的生命周期应用。数字主线,打通产品全生命周期的数据与流程,从需求管理到产品的概念设计、详细设计到工艺设计,到制造到服务,整个过程中数据链路要打通。那么第三刚才已经提到了增材制造加创新设计,那第四是虚拟现实与增强现实技术在产品全生命周期的应用。那么尤其是对于产品的这种维护阶段,实际上增强现实技术有广泛的应用场景。啊,那么虚拟现实是纯数字,纯这个数字空间现实是把数字空间的这样一些内容加到了这个物空间,比如些训常。
08:01
那第五个趋势呢,是CA和CAD紧密集成,实现仿真驱动设计。啊,那么不需要在CAD。这样一个实体模型和CE的这种网格模型之间啊,这个来回的倒,那么就在一个集成的环境里面就可以完成设计加仿真。另外呢,就是mbd啊,基于模型的产品定义,加上MB,基于模型的企业以及基于模型的系统工程,那么开始在产品创新的各个阶段实现广泛应用。那么另外呢,就是工程建设行业这种数字化交付与数字化运营,尤其在流程工业,比如要建一个大型的化工厂。那么当这个工程公司交付这个化工厂的时候,交付的不仅仅是一个实体的化工厂,还有一个数字孪生的化工厂。那么第八个呢,就CAD推出了维Ca系家。
09:18
那么还有一点就是三维的结构化工艺和可制造性分析啊,我们现在叫DX这个X,包括啊,面向制造的设计,面向可装配的设计,面向可拆卸的设计,面向成本的设计,面向自动化的设计等等,面向合规的设计。那么第十个点就是制造业巨头对软件进行整合。所这个领域还是非常的热门,企业关注么?我非常重视这种工业技术软件的大力支持。那么数字化转型啊,仿真技术无处不在。那么可以看到从这个概念设计阶段,那么到设计详细设计阶段,到制造阶段。
10:02
啊,到这个阶段实际都有各种仿软件,那么可以支尽量减少实物实验。用仿真实验来替代实物实验。那么仿真技术呢,它的应用的深度和广度也在不断的拓展,那么传统的这个结构仿真,比如说强度震动优化,还有流体仿真,那么电子仿真,安全性仿真,振动噪声舒适度的这样一个仿真。还有这种耐久性的仿真,运动学和动力学的仿真啊,比如说我们这种多体动力学。啊,那么另外呢,还有这个加工工艺的仿真,比如说我们对应的各种加工工艺就有相应的。的软件。啊,此外呢,对整个数字化工厂的设备布局,车间的物流,人机工程以及可达性的分析等等,也有大量的数字化工厂仿真的软件。啊,那么还有对电系统的仿真,环境的仿真。
11:00
而仿真技术呢,也正在走向多物理场耦合的仿真和多学科的仿真与优化。对,仿真驱动创新啊,实际上也是一个非常关键的,就是我们要善于把仿真技术与系统工程相结合,打通整个产品创新的微型流程,实现正向研发。那么刚才讲到这个数字孪生技术啊,其实我们说数字孪生是一个复合型的技术,那么它关键就是实现虚实融合。那么需要这样一个工业物联网的纽带,把现场的一些传感器的数据,包括一些我们采集的一些控制系统的数据。那么传递到我们的。这个速度孪模型里面啊,那么来进行这个相应的仿真啊,那么这里还有一些关键的技术,比如说降处理的技术,我们能够实现一种实时么使驱。
12:00
的应用驱动产品创新。另外,仿真技术在物联网领域也有很多的应用。你比如说我们要制造一个手机啊,这个手机呢,它又要信号强,对吧,又要重量轻,又要电池待机的时间长。啊,那么有多个这样一些设计目标,我们要可以用仿真技术来进行这个。那么另外仿真能制造仿。所以仿真技术呢,也正在普及啊,我们说大驱动力,第一驱动向研发自主创新,第二品量严的规。还有就是产品上市周期缩短,企业需要降低新产品研发与市值的成本。再一个就是现在的产品都走向了智能互联产品,机电软一体化,那么都有这个,比如说GPS定位,还有用的功能。所以仿真技术的快速发展,那么要仿真的更快、更真、更广,使用更加宜人化。
13:05
那么另外就是这种一些新材料和新工艺的,比如合材料,还有制造的。啊,刚才也提到了设计与仿真的一体化,包括仿真云的应用,以及建立这种协同仿真的平台。这里是一个刚才讲到的例子,就是一个能互联产品的字,设计与仿,所以大家可以到啊,要针对这样一个,比如动寸量,这是这个括的质以。信号的感知,安全性,对吧,的耐久性等等,那么也就是说这些应用使得我们要综合的利用各种仿真软件来实现整体的优化。那么仿真技术与系统工程呢?也在深入的结合。早期呢,这个仿真软件主要是用于这个整个复杂系统的验证阶段啊,那么就是说微型流程的右边,现在呢,走向于计微型这证走向仿真驱动创新。
14:22
那么刚才也说到仿真技术包括了设计仿真,包括各种工艺的仿真,比如说钣金成型啊,装配、焊接,复合材料的仿真,以及对于整个的生产线甚至整个车间的仿真。那么刚才讲到孪生技术非常重要,它也是综合用了仿真技术,比如说这个案例,我们对于这样一个。风机我们不断的在采集它的机器数据,那么采集完了以后,比如说因为风向风力的变化,我们要对这个风机的进行调整啊,这个时候我们不是凭经验去调整,而是把相关的机器数据传到了我对应的数字孪真模型进行仿真,然后呢,这样的话来验证我们所采取的。
15:08
调整措施是否正确。如果没有问题,我们再。就是物的这个产品进行调整,这样来化整个机运行的这一状升它的运行效。可以看到这个小的案例啊,也是有一次我去访问美国公司奥特尔,大家看到这么重一个轻啊,这样一个自行车,我这个一只手就可以拿起来,说明什么?说明它是非常轻量化。所以现在的产品设计阶段就是功能要更强,重量更轻啊,那么都可以应用仿真和优化技术,尤其是拓扑优化技术。实际上,这个设计技术也是在拓普优化技术基础上发展起来的。啊,我们可以看到设计加制造,那么原来左边这个零件有八个零件,而现在我们通过这种设计呢,把它变成一个零件,那么它轻了40%,而它的强度反而提高了20%,功能是一样的。
16:05
啊,这实际上就是我们汽车座椅的那个啊,就是一个关键的操作装置。我们可以看到这样一个制造仿真的过程。来这也不要把增材制造想的太简单,只是说啊,我把每一个截面这个把它策划出来以后,计算出来之后我就可以啊,这个简单的就可以侦查,因为制材制造过程它涉及到一些变形啊,内应力的问题,所以我们需要选择比较好的这个方位,也需要一些专门的软件啊来解决这些问题,所以大家可以看到通过仿真看到这里。啊,刚才这个仿真是有一些问题的啊,这是一个制造仿真的案例。士创办的智能制造的这样一个专业服务机构。啊,那我们跟腾讯也有长期的合作啊,我们希望通过智能制的传播和产业研究,那么为推我们制造业的升级提服务啊,那么也帮助企业规避风险得效,那么以上是我的讲座。
17:16
谢老师的精彩分享是与高能计季多师有着15年工业软件行业经验,精通CADCEHPCEEDA和云服务等,熟知各行业now how、业务场景等,历任GE simmens ois、工业软件技术的管理岗。欢迎季老师带来腾云算术腾讯云,助力云上仿真优化的主题分享。大家好,很荣幸受中小企业在线学堂邀请来大家做这样一次演讲,我今天演讲的题目是腾云算术腾讯云助力云上仿真优化解决方案,在进入具体的内容之前,我想先花一到两分钟给大家介绍一下关于这个仿真优化的呃,界定范围。
18:14
嗯,大家如果熟知做仿真的同学都知道,一般仿真的优化是指从各种物理条件中通过计算机的仿真来寻找一个最优,但是我们腾讯云并不是具体的行业业务,比如说流体相关的领域,所以我们对于这个优化的界定呢是这样的,我们通过云的算力资源,海量算力弹性资源,帮助我们的企业更快的落地仿真方案,帮助我们企业更低的成本落地我们的仿真方案,高性能计算方案,所以说我们的优化围绕的范围是更快更省的去落地。云高性能计算上云这件事儿,好,那接下来我们进入我们今天的正式议题。
19:02
呃,这是我今天演讲的一个,呃,内容包含五块内容,第一块是仿真上云行业前瞻,这里我们想简单的从腾讯云的角度看一看我们对于仿真行业上云的一个理解,以及整个行业的一个趋势。第二块是用算力上云,多块好省的实现仿真上云,然后第三块是我们腾讯云云仿真计算解决方案的优势与价值。第四块是我们典型的应用场景和标杆案例的分享啊,腾讯云在过的到目前为止已经做过很多的这个,呃,各个行业的高能计算上云的案例,这里到时候到了具体环节我们进行一个展开,让第五个是我们来腾讯云的行业仿真彩蛋,这里可能会展开介绍一下我们在一些具体的细分领域,已经在调度层面,在一些流程层面做的更多,更好的帮助我们用户来使用云上的仿真。
20:00
接下来我们进入具体的内容,首先呢,我们看一下这个整个的我们对于整个这样一个仿真上云的一个理解啊,就是其实高性能计算呢,已经发展很多年了,从最初的专机到现在的分布系统是不断发展的,然后呢,由于现在云的普及呢,整个就是云厂商也在开始推动高性能计算上云,然后各行各业呢,也在开始利用云计算来做高性能计算的落地,那么实际上呢,从未来的角度来讲呢,高性能计算呢,上云是一个必然的趋势,而且呢,云作为一个宏观的一个计算性平台,将来肯定会更多的存在这种海量数据的仿真,各类的处理。而且随着那个上云会带来更多的一个优势,就是我们的呃,企业要拥有更多的弹性算力,然后呢,却只需要花费更少的这种硬件成本。好,接下来简单介绍一下我自己,然后这次就不过多展开了,本人经验主要局限于呃,仿真和高性能计算以及eda云服务等相关领域。
21:13
那进入我们今天介绍的一部分内容,仿真上云行业前瞻。呃,其实呢,这我们看一下,其实各行各业中都是广泛应用仿真,这里我们对于仿真的界定是什么呢?就是但凡你用计算机来替代物理试验,我们都冲通称之为仿真。你比如在生物医药行业,我们的药物发现就是一个仿真场景,专利仿真场景,在集成电领域,我们大量应用仿真来做验证,来做仿真确认,然后基因测学,我们的基因测序排序大量用到我们的这种仿真类型来计算。化学领跟生物医药呃相类似,都是高分子药物的一个发现,以及化学材料的发现。那在其他的还有像风机风电领域,我们的也广泛应用,石油炼化,汽车机械装备,航空航天都是典型的传统的呃,CAE仿真的领域。
22:08
所以说它的呃,各行各业中应用是非常之广泛的。那各行各业中应用的场景呢?其实刚才在前面这张片子,我们也做了一个简单的就行业的介绍的一个概括,这里我们也在看一下,我们这里摆出了九张图,从左到右有药物发现,芯片设计,基因测序,这个风机风电的这个大家可能看不太明白,这是一个风机的一个塔桶基座,在海浪浪涌的时候的一个流体仿真,然后中间这幅是典型的一个蒙特卡罗仿真,然后第二行最右边这一张呢,是一个气象仿真,沃尔F的气象仿真,然后下面这三个呢,最左边这是一个传统的结构切削的仿真,然后中间这个是汽车碰撞的仿真,那最右边这个什么,又是我们芯片行业的一个这个板设计的一个仿真。
23:00
那这个角度来讲呢,我们讲到了一个应用的场景很多,接下来我们看一看整个仿真高性能计算在国内的一个市场规模和趋势,大家可以看得出来,第一个呢,随着我们国家制造业从这种仿制项那个。研发制造,智能制造的制造这个角度转化,我们各种越来越多的需要利用这种嗯仿真算力来做更大的这自研性的项目,所以说大家可以看到无论是本地HC建还是云C建设,大家都成一个明显的一个增长趋势,那这张图呢,是RESEARCH2020年的报告,其实呃,就今天报告来讲呢,这个趋势依然是坚持不断的。然后实际上呢,在中国整个H行业规模呢,在2023年预计呢,将超过500亿元。好,然后呢,其他内不做多展啊后个个行竞呢,第一个呢,我们觉得呢,从行业的这个。
24:11
技术价值角度来讲,它是一个价值高的行业,就是各类的咱们这种制造行业的研发过程都是必不可少的一个核心环节。第二个呢,就是技术匹配度高,为什么呢?因为它与云呢,本身来讲是密切结合的,咱们的一个高性能计算对算力的需求是巨量的,而且很多的时候它有一个特点是什么?就是它是短时峰值性需求,可能咱们一个工程周期中就那么三个月,但这三个月的时候,我可能需要海量算力,等到我的工程研发周期落地以后,进入产品的生产阶段的时候,我对专利的需求就下来了,这也是与云的另一个呃匹配点啊。然后呢,还有一个就是可复制推广性强的原因,就是实际上呢,整个仿真在各行各业中都形成了一些行业标准。这些行业标准既会产。
25:02
成为一定的门槛,但也是从基础角度来讲,从三体角度来讲,也是统一的,是可以复制的,是可以推广的。这些领域呢,这里有一个罗列啊,像工业、能源、医疗、生物、气象都是有这个特点。然后呢,我们从行业竞争的维度看呢,主要有本地云计算,云计算竞争二一个就是从另外一个角度看,国外的话,现在已经是大面积普云厂进的话,你像无是A是呃新就云的服务商都在开始做这一块的事情,而且做的都已经挺深的了。那么我们讲了这个行业的挑战和趋势,我们来具体看一下现在本地高性能集团所面临的挑战,这里的话罗列了呃很多,但总的来讲可以概括为几类,第一个呢,就是在本地的情况下呢,一对于一些中小企业可能建不起群,只能使用工作站,所以说呢,它就是只能做有限规模的仿真。
26:09
啊,第二个呢,就是工具使用呢,是呃大昂贵,共享困难,然后呢有当企业到一定规模以后,他开始考虑投资高性能计算平台,他又会面临什么样的情况呢?就是一个高性能计算平台初始投资都是千万级别的,对于他来讲,如果说没有业务达到一定规模,他如果使用周期不频繁的话,可能会造成一个闲置啊,在这样的前提下呢,就会有一些的浪费啊,然后呢,本身这样的集群建设完成以后呢,又会造成一个扩展性的困难,比如说我现在建了一个2000盒的集群来解决我当前的问题,但是随着我的产品发展,我需要8000盒的集群来。完成我新的仿真计算任务的时候,剩下的6000核的扩展对我来说就是一个很大的一个问题,本地集群好,然后呢,还有呢,整个这样一个集群呢,它不光是一个硬件的问题,它还涉及到相应的软件,相应的调度服务,所以说呢,对于任何一个从事非就是说非计算机,非资源管理云方向的这样一个企业来讲,他都需要配备很多的运维人员来做这样事,而且这些运维人员呢,不光是本人,他背后还要站着相应不同层级的服务性企业,所以整个这样一个就是让这些平台运作起来的一个服务链路是非常之长的。
27:33
然后还有一些使具体用户使用中的问题,比如说计算结果的查啊,也不方便,对于一些爆发型的任务就是一下子,比如说我们刚才假设已经建了一个8000盒的集群,现在一个爆发性任务需要2万核集群,他又不能去很好的马上爆发性的生人,他只能按照8000盒的规模,把2万资源区的任务分成几个批次,三个批次来完成,可能是八千八千这样规模来完成。然后整一个程呢,就。
28:07
这都是本地区面面临的挑战,那么讲了这些之后,其实呢,我们就要进入我们第二个环节话题,我们巧用云上算力,多快好省的实现云创仿真这样一件事。这里我们来看一下,其实在讲这个问题之前呢,我们先看一下行业的一个趋势,我这里呢,罗列了几个典型的这些行业企业,如如果大家了解eda业的一个呃,E供们已经微软A大面积合作提供上的这种呃eda仿真算力,然后呢,还有在药物发现领域中间这样一个HC,大家可以看到标题都写的是AWS。Russia in harnessson power of health data at scale,这里呢,其实就是罗氏制药呢,在使用AWS语大面积的去做药物发现的仿真,然后的话直接就是在它的官,如果大家了解的话,它是典型的CA仿真原厂啊,它直接就在他的官网上打出了。
29:15
云贝的工程仿真的这样一个站点,就是各类的仿真都可以使用,而且它的产品,你像discovery live和fluent很多都支持直接使用云上的license了,那么我们再看一看一些其他的情况,像在那个。风电行业气象仿我们直接已经是在利用AWS上的来做,这当然这是在国外啊,然后呢,再看中间这样个例子是日产汽车,日产汽车已经把它的全量的这个汽车仿真相关的负载全部迁移到甲骨文的云上去了,然后最右边下面呢,就是我们坑腾电子也是另一家eda软件提供商啊,它直接指明就是云是电子设计自动化的未来,所以说从这些我们都不难看出,整个仿真上云是行业坚定不移的趋势。
30:13
那这里呢,我们在就一个细分领域稍微展开一下啊,举三个例子,这三个例子呢,其实分别来自于三个eda厂商,Icynis,其实大家可以看到,简单而言,这三个例子就是说这些厂商在AMD的芯片,在那个叫做还有英特尔的芯片上面都开始。提供基于云的这种千和的服务验证的服务了,然后利用云呢,实现的最大的一个特点就是说时间有效缩短,你像它的那个七纳米的一个mental的caliber设计套件验证的话,只需要19个小时完成,但是在本地集群的上,AMD可能是要花一周以上的时间。
31:00
那么我们这呢,讲了这么仿上的势,我们一我们上有些势呢,总结一一个就是第一个是轻资产,第二个是低门槛,第三个是免配值,第四个是安全,所以后来整个等于我们一个仿真上云,那轻资产是什么特点呢?就是说我们免除了我们的客户去花千万投资建设这样一个集群的过程,客户只需要啊包年包月或者量的在我们上买相应的资源就可以了。当然这里为什么会提到包年包月和量这样一个组合,因为一般情况下呢,仿有一些常态算力是限的,这些资源我们建议包年包月走,然后呢,对于一些爆云爆发式的算力场景,我们建议可按量计费。这样的一个组合形式啊,然后低门槛的是原因是什么呢?本身呢,云提供了很好的包年包月和按量计价的这个基础资源,在这之外呢,我们云端呢,也开始在支持各类的这种就是仿真上云高性能计算的调度器,你不如我们说我们这这里支持了S,支持了PPS openva SG各类啊,而且我们的这样一个。
32:14
官方支持呢,会让整个使用习惯从客户移上来,做高是没有使用惯差别的,第点的展开呢,实们支持类具当些具呢些我们支持好开箱用后,我们的彩蛋里面会展开这一块内容的介绍,有些呢,可能一些比较冷门的一些,呃,工具还是需要一些一次性的集成配置,但这些一次性的集成配置呢,只是一次性的劳动,后面就不再需要了。那么从安全的角度上呢,云上呢也提供整个端到端的安全解决方案,确保你的这个仿真数据和核心的设计数据,验证数据都是安全的。那整体而言,最后就是我们是提供了整个一体化的一个仿真上云解决方案。
33:06
让客户呢,就是设计仿真测试是一站式的,可以在云上完成。好,总结而言呢,其实我们可以用四个字概括,我们仿真上云的一个好,带来的好处就是多、快、好、省,这里多呢,我不做过多展开,大家可以看到就是一个呢,资源类型多,二一个部署形式多,三一个呢,我们支持公有云、合云、私有云各种的部署呢,就是相比传统H建设我们部署周期。然后公允任务呢,无制化的部署到小时级,就是说如果各位要使用任务形式的来在云上执行,只需要小时级的就可以完成。啊,不需要花大量的时间去做前期部署啊,然后集群线呢,又我们如果在上部署集群呢,又可以支持你的一个定制。然好呢,这里就是讲的我们的易用性高,因为我们已经开始是支持面向用户的这种任务模式和那个集群的调度模式,界面呢也全面外部化了,方便大家的使用。
34:12
然后从省的角度呢,其实多快好呢,带来的结果就是一个省,因为你的每一分投入都是物有所值的,那过往可能你的本地进群建设了之后,会有峰值不足,谷底浪费的情况出现,但是上了云以后,我们的弹性伸缩能力,我们的按量计费能力,会让你的每一分仿真的投入都会有所值,然后呢,通过整个这样一个高性能计算服务呢,就是让你的这个在硬件资源上的成本呢。初期变得非常低,而且呢,整个使用效率呢非常高。好,那接下来我们呢,就要对腾讯云云仿真的计算解决方案呢,做一个展开了,这里展开的话,我们呃,具体看一下相应的方案的优势和价值。
35:06
那从整体上来讲呢,就是腾讯云高性能计算解决方案呢,是整合了五大内容啊,第一整合了腾队腾讯云的基础资源,第二呢就是适配了各类调度平台,第三呢就是支持各种调度优化策略,这里我们稍微对调度策略展开一下,我们支持公平抢战、碎片回填、预留等多种策略形式,然后第四呢,我们支持集群按需伸缩,就是说我们的集群在最小的时候可能就那么五六台机器,保持它是一个集群的规模,是一个集群的形式,当是在需要计算的时候,可能我们在15分钟到30分钟之间,可以给客户伸缩出最多4000台或者最多更多数量的这样一个计算资源。来解决客户的问题啊,然后我们的部署形式呢,也是多样化的,公有云私有云,公有云跨区部署和公有云的本地与本地沙滩的一个混合部署都是可以的。
36:08
那这一张嗯,是我们介绍一下腾讯云原生的hpc解决方案是包含了哪些内容,大家可以看到,其实呢,任何一个云厂商都会提供这算力体做项的内容,包含计算、存储和网络这里这一块呢,我们不对具体的产品做过多的展开,后面我们也会有相应的同学对我们整个高性能计算中所用到的cfs文存储和我们的这种呃云桌面的相应的内容做一个展开,我们这里主要看一下我们中间层基础软件的服务平台,在这里呢,我们腾讯云呢的C平台呢,整个是集成的各类调度器,我们的容器服务平台呢,可以支持对于容器型的调度,这类的话,在信啊药物发现里面应用的非常广泛,然后呢,高性能计算平台呢,也不光应用于这个,就是呃。
37:02
深信啊之类的,还会有一些AI的场景,AI场景呢,我们有推出了ta口的AI加速组件,可以更结合我们的高新能平台,更好的有效的帮助客户低成本,呃,就是低成本有效的来利用榨干每一分GPU资源的,呃,成本吧。然后我们还提供了我们的QGP技术,就是可以把GPU的切分力度到非常细的,然后管控。呃,精准的这个切分呢,我们的整个算力非常精准的匹配我们的计算案例。那整个这个平台就是我们一个核心,那从右侧我们的解释来看的话,实际上平台,平台就是我们从原来的层,像pass的一个拓展,然后在上层,最上层呢,其实我们跟具体的仿真软件厂商呢,要看行业来看,对于一些商业软件,我们优先呢,是以客户自带license上面的形式加以支持,对于一些开源软件,其实我们在后面的单环节会讲到,我们已经有很好的这样一个跟平台打通的集成支持形式了。
38:13
那这里我们来再展开一下那个具体的我们落地的一个形式,大家可以看这张方案图啊,这张方案图是我们一个对于初步开刚开始起步做仿真的中小企业去设计的一张仿真上云的图啊啊我们从客户终端这边呢,其实只需要几台嗯电脑或者说带显卡的机器,然后建立好它的license服务器,假设我们客户是自带license上面啊,那所有的其他的算求都可以上实现在腾讯可以部的这录节,然后呢,也可以部署一些带GP卡的这个呃登录节点,用于查看仿真结果,然后这些登录节点呢,它会连接到它我们的中央调度节点,中央电度节点后面有我们的这样一个就是调度数据库,去记录我们的具体的资源情况,记录我们每次的操作日志,记录我们的跑的任务相关情况。
39:14
然后呢,整个调度点后面才是对客户可能看起来不太明显的我们的计算机群,我们的计算机群呢,这个整个呢,包含我们的这个CM裸金属偏CPU资源类的计算机群,也有我们的U类型计算资,如果您做的是这种传统的这种结构流体电磁热力学,可能会更多的用到我们的这种CPU类型的算集群,也就是我们的CVM裸金属集群,如果您用的是AI,那可能会更多的们那使用那个些件license,我们的net网关直接连接到,嗯,咱们企业客户本地的这个license服务器来进行一个实现,那这套方案呢,其实就是为刚开始起步去做云上仿真的客户而专门设计的。
40:10
好,接下来我们再看一看,我们对于企业上了一定规模以后。我们存在多个地域工作场景的一个方案啊,假设咱们现在公司在上海北京都有点吧,那可能都有咱们的仿真诉求,这时候我们腾讯云可以把刚才的上述方案,就前面的方案这里已经省略掉咱们本地的登录环节啊,就是在同时腾讯云的两个可用区同时部署,然后通过我们云联网的一个打通。来做这件事,当然我们为了实现整个这样一个调度环境还是一致化的,我们在后台呢,可能需要数据库呢,需要做一个替换,在前一版本的我们可能利用的就是我们的标准的云MYSQL数据库,那这时候可能需要利用到我们的TTMYQL数据库来做好这样一个后台的同步,这样的话对于整个企业来讲它可以。
41:05
呃,利用到多站点的形式,让我们所处在不同地域的员工都使用本地化资源来完成它的仿真。最快的完成它的仿真啊。那么接下来我们再看还有一些企业,有一些企业可能在初期的时候,因为有一些仿真诉求,在本地已经建立了一些小规模的群,或者说有一些比较这个也算力比较好的这种胖节点,我们称之为胖节点啊,就是计算资源比较好的单机资源,那这时候呢,它对于它的扩展来讲呢,可能是一个高成本,然后维护又呃,也是高成本的一个事情的时候,后期的话,他可以考虑与我们腾讯云做一个打通,来把他的本地集群和整个这样一个腾讯云的东西一起纳管起来,利用腾讯云的调度节点,我们也可以调度客户的本地资源。去兑现这样一件事情,这样呢就是说既保证了客户的本地集群呢,没有被那个因为上云而浪费掉,而又让客户呢享受到了云带来的一个好处,就是从长远来讲,成本更加节约的使用云上算力资源。
42:17
当然,这种方案其实也还可以考虑客户的另一方,就是客户把自己的常态算力放在本地去,把他的云爆发算力放在腾讯云上。那么上述三种方案呢,其实我们现在简单的再看一下,他从应用角度的一个调用逻辑啊,基本上我们最上层呢,就是对于我们客户最终用户来讲,他看到的都是工具软件,然后呢,在工企业客户内部,可能他的it平台,他的工作人员,他看到的是我们的TPC调度平台,是资源管控平台,那从我们内部角度来讲呢,我们看到的最下面的呢,就是我们的计算资源,我们的VPC网络,然后我们对于呢,相应的一些黑石机器呢,也提用提供这种RDMA的高速计算网络,就是说我们可以实现两种网络的一个分离,就是管控网络在VPC上走,但是我们的计算网络是在RD上,但是对于另一些场景呢,可能我们就并不一定需要RD,举个例子来讲,比如说我们E。
43:24
就是批量的验证任务需是上位业,带来的好处就是配的机型特别多,网络类型也特别多,可以更好的供客户选择。好,那整个这里呢,我们来总结一下我们方案优势的一个特点啊,就云高算方案优势的一个特点,相比本地高算呢,我们第一个呢,支持丰富的算力资源和灵活的扩展,然后第二个呢,我们支持呢,公有云,私有云,混合云的灵活部署,然后第三个呢,就是按量计费。
44:06
成本低,那这里是最重要的三个点,其他的呢,其实我们还有一些其他点,比如说我们有开箱的软件,当然这里不能包含全部,只能是有一些行业我们做了集成的,已经能做到的,然后还有诸如0IT基础,一站式的一个交付算力平台,让我们的企业呢,这种中小规模的it。中小规模的这种公司的it不再需要花费大量的精力去维护这样一个高算的管理平台。然后我们讲了这么多优势,我们也来看一看,就是我们现在这个云上高算跟本地划算相比带来的优势,以及本地测算有哪些痛点,本地测算痛点呢,其实这里呢,呃,展开的过多也。没必要,我们就看下面这几张图,第一个呢,就是从建设成本和建设周期来讲,本地高算呢,就第一个建设成本呢,都是非常巨量的,一般本地一个建设成本起步是1000万级别,当然稍规模大一点上也是完全可能的,像南方电网可能在准备建设的那个就是几个的预算。
45:17
然后从建设周期上来讲呢,本地高三的建设周期基本上都是以年为维度来进行一个衡量的,但是我们上的话其实可以做到最快周级别客户就可用了,然后如果要进入一个稳定运行状态,我们再算上一个两三周的调整时间吧,最多到一个月级别就客户就已经完全可以上手可用,所以说这是一个时间成本上的节省。一个从运维角度来看的话呢,其实我们看本地运维团队非常大,为什么非常大?因为本地建设你包含你的机房,风火水电,你的硬件机架你的。这些调度平台,你的各类软件维护人员一个都不能少,但是一旦上云以后,其实我们现在就假设客户的这种业务场景的软件是咱腾讯云没有的,那么也只需要客户在企业内部维护一个很小的团队去支持好业务应用级别的就可以了。而其他底层的关于调度,关于算力,关于机型这些维护全部由腾讯云来承载。
46:23
所以说会大大的降低,就是企业在这个高能仿真群,这些运维团队上的一个人力资。然后一个呢,就是当我们本地建设集群呢,有一个建设完以后呢,它的算力是定的,在我们右边这张图上,这条蓝色的虚线就展示了这样的特点,但是我们企业客户呢,其实最大一个问题是什么?就是我们的工程高峰期,我们仿真算力需求呢,是一个弹性波动的,那举个例子来讲,在最初阶段可能我们算力是存在浪费的。因为我们算力需求远低于我们的小缆线,但是到了某其中的两个这个波间的阶段呢,又出现了峰值不足,这时候呢,在对于传统高三的一个。
47:08
呃,解决办法,唯一的办法就是我通过排队把这些风给拉长解决掉。对吧,那上云的话,这个时候就不存在这样的情况了,就可以完全的利用云上的弹力资源迅速的解决。好,所以说这里的话就是讲一下本地车辆的痛点。那相比于本地算的话,我们腾讯云上的HC环境。这里也整理了一下我们的一个我们集啊,首期建设成本节省超过60%。然后建设周期短的多,然后服务成本呢,因为呃云服务成本低的多,然后再就是一个资源扩容成本,这个在传统超领域的话,基本上扩容呢也是。
48:02
年这种级别来计量的,但是我们云上的话可以实现分钟级扩容。然后整体来讲呢,就是从性价比,综合性价比来讲呢,传统计算机群呢,我们如果是认为一般的话,那腾讯上的。这个HBC的话,性价比就是极高的。嗯,讲完了上面的这样一个巧用云上算啊,咱们接下来看一看我们在腾讯云上究竟做了哪些事,有哪些应用场景和案例可以分享给各位啊。那么我们在讲之前呢,首先看一下我们对于仿真场景的一个梳理,然后我们基于我们对于这些仿真场景的一个梳理,这里列出了一共有这么90个场景吧,然后列出了他对计算、存储和网络不同的诉求,这是五,从我们角度来讲,任何一个行业,它的一个仿真高性能计算,如果离开了具体的业务应用去谈,都是属于意义不大的,只有根据它的具体业务来看,我们才知道。那举一个例子来讲,我们那个风机优化,它对计算资源所需要求就是要求并行度要高,它的主频、内存要求都不大,而且对于存储呢要求高,为什么?因为它的场景多,小文件多,一定要用我们cfs这种存储类型来解决,但是它对网络VPC和RDM求需求都很低,或者说您在风机优化这种场景中不使用RDM网络都可以。
49:37
那换一个场景,比如说我们显示动力学,显示结构求解来讲的话,显示动力学来讲,那所有的要求里面,除了对于存储以外,其他要求都是高的,但是呢,它不需要有GPU,因为我们现在显示结构求解的解算器啊,还没有支持到GPU,那在流体力学仿真中呢,现在有一些软件已经开始支持GPU加速了,就比如说我们flu,然后就已经开始有GP加速这样一个高算,如果说客户愿意利用这样GPU算法,我们就可以用GPU集群来去应对这种案例。
50:16
那了上述现在我们具地的一些场景做一个归纳,我们以一个我们是工业制造的一个场景,这个场景呢,其实呢,我们用最大的呢,就是片设计,工业制纳米材料的仿以处理渲染三种场景,这三个场景呢又各有不同,芯片设计可以算是IC行业的一个特例,它对资源的诉求就是典型的,大家可以看到就是我们的一个大内存型的资源。需要用到我们的裸金属,呃,机型大量的那个。然后呢,在我们的这个,呃,工业制造和纳米材料仿真领域,大家可以看一看,其实呢,它对D网络的需求非常高,因为这种纳米材料仿真的话,基本上会用到第一性原理去做相应的计算,它是一个。
51:06
就是单机不能handle的一个任务,需要我们组织集群来去做这样一件事,那这种情况下呢,就是要把几台机器通过高速计算网络相连来做这样一些,这里呢,就是VPC网络只负责计算任务的管控,把我们的计算,嗯,计算过程中的这种数据传输全交给I d mm网络,那在我们的一些工业设计渲染的时候,其实它对CPU资源需求不多,反而对GPU的渲染资源要求非常多,这时候就需要我们的GPU渲染服务器来做这样一件事,当然整个这些从资源层的之上呢,都是由我们的TPC平台来负责去做调度的,然后呢,我们可以把我们所有的这些,呃。计算的输入和输出都用我们CS的这样一个高性能文件存储来进行一个归档。
52:01
那在医疗行业呢,这里我们主要看一下,就是我们医疗AI的一个大场景啊,医疗AI大场景呢,其实大家可以看到左边呢,我们从输入数据中可以看到主要疗像诊数据和靶点数据,靶点数据呢,主要就是范畴之内,然这三类里面呢,它AI嗯和模型的输出呢,主要是就是一个,就是咱们在经常见病还一个疗以生成一个发现。那个合成就虚拟虚拟药物吧,就是药物分子这样一个场景,那在这里面呢,我们从我们内部内容来看的话,主要对于高性能计算集群有两个诉求,一个是模型训练的诉求,一个是模型推理的诉求,在模型训练这个级别呢,我们提高更好的基于G10XP为一当在然资然呢我们呢资我这一个就是那个训练加速组件,腾讯提供出来一个ta口的这样一个训练加速组件,能很好的优化咱们的训练框架啊。
53:12
就是帮咱们更快的训练处计算模型,然后当我们的模型训练完以后的话,我们可以把它放到cos对象存储。然后我们可以利用相对更加。便宜一点的这种T的CPU来做推理。这样的推理呢,是在云上可能是用GP,但如果说我们要去把它放到具体的一个边缘端的话,我们也可以去用这种PU的资源去落地啊,就是非常的专用的这种芯片去落地。所以说这是医疗行业的一个场景,那么我们再看看我们在自动驾驶的场景,自动驾驶的场景呢,其实呢,就是从数据采集开始,到我们最后呢,推到车上,呃,投放新的这种自动驾驶算法,其实它的过程呢,与医疗呢也有很大的相似性,主要的诉学任务也是两块,一块就是我们自动驾驶算法的训练,一块呢就是我们这一个自动驾驶算法的一个模拟,那训练是这时候呢,其实呢,自驾训练呢,它需要的呢,就是一个呃,需要有一个RD网络的一个大模型,而且可以利了我们的training的这样一个加速组,然后在我们的那个模拟阶段呢,其实呢,自动驾驶模拟它是一个跟显示高度集成的,就是它是一个视觉型的,所以说呢,视觉型的渲染场景,然后呢,会利用利用到我们大量的这种A10T次型的GPU来去做这样一件事儿,当然我们这里给出的机型呢,就是我们的一个推荐。
54:47
然后呢体其实呢,客户用那个算场景呢,实际也是可以去具体定制的啊,并不是说我们推荐的一定就是那个,就从我们过往经验来讲,我们是这么一推的,然后整个这样一个情况呢,当算法成熟以后呢,就可以通过我们这种车机服务的这个the air的网络推送到车机来,具体的去那个落地我们的自动驾驶算法。
55:16
然后我们再看一看基因测序的场景,基因测序呢,这个场景其实也可以算做医疗里面一个,但在基因测序里面,其实后面我们还讲到我们的一个彩蛋,就是我们呢实际上已经做的非常深了,因为基因测序它有个特点,就它的软件呢,基本上都是开源的,然后呢,我们已经为根据行业设相应做了相应的适配,在我们基础资源只占很小的一块的上面呢,我们把we的serve呢引入进来,我们把wa dl的。定义语言W语言的话,如果是做基因测序行业的同学都知道,就是咱们的work flow description describe就是用于描述我们的流程的,因为基因测序行业会涉及到很多的这种呃业务应用,他们呢需要把这些业务应用串起来,它就是用WL来去做的,你比如呃这里我们也不做过多展到后面我们看到这个具体产品的时候,我们有一个奥平台。
56:14
稍微做一些展开啊。好,那刚才讲了我们在各行各业的一些方案,下一的一些成功案例啊,第一个一个长安,长安汽车呢,其实就已经是把它的很多传统的这种汽车上的流体计算结构仿真,还有碰撞这些整个仿真都已经逐步的搬到我们的腾讯云上来了,当然它还是有它的一个本地集群在的,它并没有把它本地群完全废掉,所以它其实就是我们眼型的一个混合模式,当他在算力够的时候,他就利用它本地的计算资源,当它算力不够的候,他就利用我们上的这个资源来做它的这样一个场景。然后呢,这里呢,其实也没展示了一下,我们所推呃给长安汽车所推广的这我们的主要产品啊,就是第一个是我们的基础资源,第二个就是我们TPT的一个高性能计算管理平台。
57:15
然后这个呢,是上海电的这个风机主控的一个例,这个呢,其实就是我做的啊,然后呢,大家可以看一呢,从本原来讲呢,是呃个本地群是一五百的规模,还微软云个群也是个500的规模,个满机满求他呢,其实就是希望能找到一个更成本更低,然后算力资源更充足的这样一个云服务商来帮他解决这样一个问题,那我们实最后呢,就是用了一个我们腾讯云来载的,那风电这个行业为什么我们能承载的很好呢?其实大家可以注意一点,我们其实呃给他提供的这种是云服务器型的的计算资源,就是如果懂行的同学都知道,咱们提供的是虚机资算资源,而且提供的虚资源有个特点,它都。
58:15
就是我们的一个小合机,主要是我们的老代次的两核4G和四核8G的一个资源,那为什么是这样呢?因为它这个风机载合机算的这个场景啊,它是一个零地的零尾的一个系统仿真,它对计算资源要求不多,但它有个特点就是什么,它一次性批量计算任务特别大,一次性可能有4万个计算任务,所以说实际上呢,它对于我们呢,就是计算资源单体要求不高,但是你的量级要足够,第二个呢,因为每一次呢,计算任务4万个,这样多,会导致他对共享存储的要求,IO性的要求比特别高,所以我们当时给他推的呢,是我们的tbo型cfs,而且在tbo型FCFS之前呢,我们还架设了很多的头节点用来提速。
59:01
用来提高我们的这种IO速度,就是跟各单阶段节点节点之间的IO速度。那其随着那个上海电器那个落地的成功呢,其实我们很快呢,就把它平行复制到原来的湘潭风电,因为湘潭风电后面被哈电风能收购了,所以现在在我们叫的名称呢,叫哈电风能,那哈电风能呢,其实当时我们做了一些更细节性的测试啊,就是我们呃,利用300盒的资源帮他完成6000个任务的场景,需要九个小时云上资源,然后的话呢。嗯,对他来讲呢,其实这个任务跑通道九小时就非常满足了,满意了,但是其实我们云上呢,如果说他愿意利用弹性算力,我们可以一千一次性的把6000个任务一次性用6000盒来处理的话,那时间还会将进一步极大的缩短。其他缩短,所以说湘电风能啊,湘潭风电和这个上海电器啊,可以看作是两个完全雷同的案子,都是风电企业的载荷主控高性能计算上云的典型。
60:07
也算比较头的一个业了啊,其实我们的云上利用我们的一个资源来做的这个端计的一个VC的验证,为什么要做这件事呢?因为每个芯片设计完了。轻微的改型以后都要做退化测试,一个芯片的退化测试案例呢,都是两三万个,然后呢,也是一个典型的就是大案例的场景,二一个呢,因为芯片设计呢,涉及到大量的eda工具,Eda工具在做仿真的过程中,需要载入大量的这种就是相关的,我们称之为IP啊,就in property第三方的IP,所以说对内存要求特别高,那大家可以看到,其实我们提供的都是内存型的CM实例和内存型的裸,然后呢,呃,通过这样一个前提呢,去帮助他解决他在退化测试中的一个问题。
61:08
然后呢,其实整个随着我们在前端VC的这样一个呃,批量测试做的成功。虽然科技在它的后端各个环节中也开始陆陆续续使用我们云上的这样一个仿真资源,那对他来讲最大的好处是什么?免去的去投资一个巨大的一个高性能计算机群,来承载它的一个芯片仿真业务的一个。呃,需求,但是呢,更快的落地了,而且整个整落地呢,也非常满足他的一个诉求。那讲完了我们在芯片行业的例子,我们再讲一下我们在汽车行业的一个例子,当然这个是一个汽车贴场上博士啊博士汽车电子博士呢,其实现在就是利用我们腾讯云上的一个自动驾驶专区,在做它的一个自动驾驶算法训练和推理的一个呃仿真,大家可以看到其实我们的一个架,刚才的架构图跟这张图是有高档高度雷同的,唯一不一样的地方呢,可能我们这里呢,是下面的存储级别呢,画的更细致了一点啊。
62:12
情况,然后呢,整个呢,它利用我们的A100和100高性能集群呢去做模型训练,然后对于数据呢,因为训练的时候数据要求加速,所以我们在我们的cos层数据层呢,增加了一个SFS数据加速器,去更快的触达数据,然后当模型训练完成以后,可以用我们的T4和hgb服务器来做相应的这个算法推理仿真。当然,真真正正这些算法的应用实际上是在车机啊,就是一旦算法仿真验证也通过了以后,我们就会直接推到车机上去使用。呃,这个案例呢,是我们在泰医学做的一个药物发现的一个案例,如果大家对药物行业有些了解,就会知道,泰医学呢,实际上是大面积服务罗啊,格兰素啊这些大型的药企,他们做一件什么呢?泰科技呢,主要做的一件事情就是利用A的方法去做,帮助这些企业去算一些药物分子的空间结构。
63:15
啊,小分子药物的空间结构,那这里呢,其实金泰医学呢,已经是大面积使用腾讯的资源在去做这些计算了,因为对他来讲呢,投资大面积的高性能计算机群去做这件事儿,远比不上直接利用云上的资源去做这件事儿,而且在整个这个招投标的过程中呢,我们想呢,也也举个例子啊,就是有咱们这么多的友商参赛参标,最终呢,腾讯云是以第一名的情况下来中标,我们提供了足够多的这种资源去帮助静态医学去它的vasx,各种蛋白质分子结构,还有小分子结构的这样一个空间仿。呃,这个呢,是某。
64:01
基因测序仪仪器上的一个案例啊,跟刚才金泰医学呢,有一些雷同,但也有些不一样,那个呢,它因为专注于帮客户做药物发现啊,这个呢是基因测序,但是呢,这家客户他不愿意去暴露他的企业名,所以我们只能从一定的维度讲一下呢,就是说他利用腾讯云的资源去做他的这样一个基因分析仪器的一个仿真验证。好,那这里呢,还有一个案例呢,这个案例呢,其实就是我们那个图形图像学的一个高性能计算的案例,场景呢,就是我们跟煤炭总院合作去做了远程诊断,然后整个这样一个过程中呢,关于过往的这种骗子的训练以及推理都在我们云群中。完成,而且大家可以看到,我们是用容器化的技术去做这样一件事的。那这里呢,还有更后面的一个案例,就是我们跟行业中的一些伙伴型的企业的一个合作,我们不光直接服务于客户,我们还服务于我们在这种高性能计算行业的伙伴,如果大家是高性能计算行业的同学呢,仿真行业同学呢,都知道并行科技这家公是我们国内呢一家比较大的就是超服务吧,可能运营着广州还有其他一些超中心,北京一些超中心,同时呢也向一些企业提供它的一些超算服务。
65:29
然后呢,这是这个案例呢,是客他的一个客户需要做一个G大的一个模型场景,但是呢,无论是当时的哪家都没有提供这么多GP的资源,所以就跟我们一起合作,去把这个案子利用腾讯云的资源进行一个落地,大家可以看到,其实呢,他对腾讯云的诉求呢,就是需要提供足够的算力资源给他,同时呢,帮他把算法进行一些加速。让他更好的利用这些资源。然后我们提供的。GPU服务器和我们的加速算法都很好的帮助他落地了这样一个GPT3的一个场景。
66:05
而且现在的话,其实并行科技在我们腾讯公有云上的这样一个AIHPC场景下的话,月号的话可能都已经达到60万的一个规模,年号可能都是接近。百万吧,七八百万的一个规模。好,那刚才讲完了我们所有的这些案例和我们的一些解决行业解决方案,最后我们来看一看,就是来自腾讯云在行业方向上做的一些仿真的一个彩蛋,为什么称之为彩蛋呢?因为这些东西呢,就是说呃,有,因为行业太特别多哈腾讯云第一个不可能看过每一个行业,第二个呢,就是这些东西呢,呃,可能在你那个案子中有用,但是可能呢。也确实您的行业没有重叠,没有派上用场,所以我们看一下第一个呢,我们在就是基于第一性原理研究材料结构的这样一个上呢,我们提供了一个叫test平台,大家可以看到这个test平台呢,实际上呢,我们已经支持的主要软件就包含SPPMPWMAT,对吧,Cp twok。
67:14
然后S这些东西,然后这个平台是做到一个什么,别呢,就是说往我们刚才讲的就是提供的只是二次资和调度的这样一个pass,那这个呢,其实提供的可以就认为是一个完全的服了,如果客咱们需要使用P,嗯,还有这些软件,那可以直接就买购买我们这样一个SAS服务来完成它的,呃,相应的这一个第一性原理的材料计算,那这样一个情况就是。呃,相当于对客户来讲,就是完全不需要建设底层的高层高算平台和关注底层的这种硬件架构调度结构了。那第二个呢,就是我们在自动驾驶领域的一个平台,称之为T,那T这个平台呢,其实它不光是支持自动驾驶的AI训练,嗯和推理,它还有一个就支持仿真,因为我们自动驾驶一旦算法成型以后,它最重要的去是要什么,至少至少你要用车辆动力学模型去在具体的上去跑一下。
68:19
所以说整个这个仿真平台呢,就是说第一个呢,它提供了这个训练和推理的能力,第二个呢,它把很多的这种工业上的这种车辆动力学仿真软件集成进来了,确保大家呢可以利用云上的资源来进行仿真,整个一个就是相当于你模型训练。以及模型的仿真验证都可以在云上完成,你唯一需要去自己做的就是一个OTA平台推送到车机的过程。那这里呢,其实也有一些我们的一个界面啊。大家可以看到我们很清晰的展示了云上仿真的一个外外部化的界面,就是道啊,场景都在里面,整个仿真结果这边都是直接可视化的展示。
69:01
然后这里的话列出了这个平台的一些能力,比如交通模拟,高精度地图,三维重建啊,车载传感器,还有和。那在后面介绍一下我们的一个叫健康组学平台奥,这是我们呢,刚才大家可以看到,如果刚才注意我们刚讲刚才方案的时候就讲到了我们的一个在那个健康组学平台的一张图啊,其实就是这其中的一部分就是些,然后现在这个平台呢,已经完全的相当于SS化了,各位如果是做基因组学测序的这样一类型企业,完全就可以利用我们这样一个平台来做,而不需要去的用,因为我们已帮你用全面集成好了,工具呢其实也集成了很多。各类这种就是呃,基因测序,人像那个metak Meta space这些都已经集成好了。
70:07
最后呢,我们讲一下,就A景讯提供些速ta和呢,就是深度优化了我们的flow的这个训练框架,然后和我们的那个训练组件。这部伙伴内的话,我们这里列出了像嗯,腾讯微信书小程序都在里面,那外部客户呢,现在主要是偏的,其实我们认为呢,不这种的业,像传统企业如A场景也可以落这里你举个例子的,其实用了我们这一个做训练加速的。
71:00
好,那感谢您的呃观看吧,我今天的呃的介绍到此为止,谢谢。谢谢老师的精彩分享,接下来有请最后一位分享嘉宾,腾讯云文件存储产品经理杨飞,杨老师有着多年存储行业经验,负责腾讯云文件存储的产品管理、运营及业务对接,长期聚焦解决从IDC公有云环境下的方案。具备完整的解决方案及地。欢迎杨老师带来腾讯文件高助力仿真上云的主题分享。呃,各位中小企业在线学学堂的听众们,大家好,我是腾讯文件存储的产品经理杨飞,这次也是非常荣幸能给大家带来这次啊高性能存储助理仿真上云的这个课题的,呃,讲述吧,然后本次的内容的话,主要分为三个部分,第一个是关于啊仿真场景存储的需求和痛点分析,然后第二部分的话是啊腾讯文件存储在仿真场景下的话,它的一些具体的优势和亮点,然后第三个部分的话是我们在真实的客户的仿真案例中的话,我们一个最佳实践和他的一些相关案例的一些分享。
72:17
然后首先第一部分的话,其实呃,仿真场景的话,它其实会有非常非常多的这样的一个细分的场景,而近期比较热门的,或者说是大家关注度比较高的话,其实是在那个芯片仿真这一块,然后随着就是我们制造工艺的这样的一个快速的眼镜,从14纳米到七纳米,再到三纳米,其实它整体的这样的一个迭代速度是相当相当的快的,然后这样的话,它其实对企业的研发和它本身的这个芯片设计的这一块计算实力的这个要求的话,其实也是逐年有一个非常非常高的这样的一个需求,那么在这个背景下的话,其实用户当他去做一些实际资源购买决策,或者说他的这个项目开发的过程中的话,其实他就会面临非常非常多的困难,比如说他自己去自建机房的话,他比较难去,呃,估计到未来可能两到三年,它需要采购多少的这样的一个服务器的数量,同时的话,当他这种业务快速的这样的发展的时候的话,它当前的这个架构是不是能够。
73:18
满足他未来的这样的一个需求。然后第三个的话就是这种就是需求开发的话,它其实呃本身上对成本其实是有还是比较在意的,就是它是比较难再一次性就是投入非常大的资源,或者说是这样的一个资本去购买海量的这样的服务器,或者是这样的it设备,就包括交换机,网络啊,以及它内部的机房这一系列的话,其实都是一个非常非常复杂的一个过程,而且它的建设周期是非非常的,而这个其就对跟用户希望这种业务快速上线,他这样的项目快速上马,并且进入研发周期的话,这个其实它是有一些矛盾点在里面的。然后第四个的话,就是当用户自行去啊,比如说去建设数据中心,然后去满足他的这样的一些数据方面的需求的话,其实是比较难去建设一个既合规,然后又能够在技术技术上能够保证它数据安全的这样的一个数据中心,那么其其实这一系列的这个就是呃原因下的话,其实很多企业的话,现在已经在选择使用公有云的方式,用这种弹性安全快捷的方式去实现它这样的一个业务的快速迭代,然后去满足他这样的高速增长下的话,这种各种各样的痛点。
74:35
那么在在云上的话,大家就可以看我呃右边的这样的一个就是呃简单的示意图就是公有云,它其实对应在这个场景,最最大的特点就是它是一个弹性的一个服务,就是用户的话,他其实可以屏蔽底层所有的这样的一些,呃,无论是建设机房啊,还是资源呃准备啊,或者资源规划这一系列非常繁杂的这样的一个准备工作,而直接非常快速的去把它的业务在云上去应用到应用云上各种比较呃成熟的或者说是比较稳定的这样的,无论是计算啊,网络啊,还是存储的资源去部署它的服务。
75:13
那么简单来讲的话,其实呃仿真的话,它主要就是可能有三大比较,三个比较大的一个资源开销吧,第一个就是说是它的高性能存储底座,这个的话是所有的,呃,应该是所有的一个基础吧,就是因为整体的话,你在做这样的一些芯片的设计的时候,它必定会有很多这样的一个数据文件,然后这个文件的话,其实我们后面会再有单独的一页去讲大概有哪些类型的这样的一些过程和这样的一些文件,然后同时他对存储有什么样的要求,这个是第一部分在存储作为整个呃仿真的这样的一个数据底座的一个情况,然后第二个的话,就其实就是说是呃,从存储到计算的话,它其实肯定会依赖一些网络的资源,而网络上的话,其实在。
76:01
嗯,大部分你在同可用区去使用这样的云上的资源的话,其实它网络其实都是完全免费的,然后我们会任何一个账户的话,它都能够创建非常多的这种ABC的私有网络,然后去打通计算和存储之间的这样的一个数据互通,那么呃,在你建完网络之后的话,再往上可能就是对应的你需要去部署你的呃云服务器,或者说你要基于容器的环境下去做,甚至说你基于腾讯云上的一些呃更上层的pass平台去部署的话,这样的话,其实呃都是一种可以选择的一个方式,这个就根据不同的业务场景可以有不同的这个选择。然后当然我们也会有非常多的方案去给用户去提供,然后呃,从你最基础的,比如说有些企业,他其实呃本身自己在部署环境上有一些特殊的一些需求,它本身会有自己内部的一些在IDC环境下已经使用的相对比较成熟的一些方案,他需要的就是在云上有一套标准的基于层资源的这样的一个部署环境。
77:05
那么这个时候的话,他可能会选择这种直接用云服务器,然后加上我们的高性能存储底座去部署它的整个芯片仿真的方案。然后如果说是他能够有些相对比较少一些企业的话,他自己的IC里的方案可能没有那么成熟,那么我们也可以给他提供在云上的这种相对比较简单或成熟,或者说或者说是在比较大面积范围内使用的比较顺利的这样的一些pass方案,比如说我们的呃,TPC的平台,或者说我们的一些专业的这样的一些。高性能计算仿真的这样的平台,供用户去做这样的一个选择,然后这个当他资源部署完毕之后的话,其实呃,因为整个云上它的无论是呃,虚拟机还是存储的资源的话,它的整个库存啊,或者它的供给是非常非常充分的,就是它只要把整个环境搭建起来之后的话,它整个横向扩展的能力就是已经充分的去具备了,比如说他不需要再去关心我什么时候需要采购多少服务器,我什么时候需要扩容多少存储,他唯一需要的就是说是当他当他发现有任务。
78:15
比如说或者说有一些比较紧急的项目要上的时候,那么他去在上去用API去操作,或者在控制台上去操作的实的,或说是存储的扩容的动作就可以了,这样的话其实就省去了用户非常非常多的这样的一些烦恼,或者说他需要去提前准备的这样的一些一些事情,然后把这种不可控的这个情况转化为一种用户心里有底,然后也是随需。而使用的这样的一个服务,这样的话,其实用户的需求就会得到比较充分的一个满足。然后这个是它整体的一个需求情况,然后就是总总的来说的话,其实就是云上通过这种非常稳定的技术架构,加上这样的充足的资源,其实是能够给像这种波峰波谷会比较明显的这样的一些仿真计算的业务提供一个非常好的一个平台去使用。
79:06
然后。然后呃,说完它整体的一个情况的话,其实呃,Eda场景的话,其实以就是eda的话,其实就是芯片仿真的一个就是缩写嘛,然后在这个里面的话,其实它看似爱层,它是一个只是一个类似于梯子啊,或者说是一个基础的一个服务,但其实呃在这个里面的话,呃,因为eda场景它对这个整个存储的性能其实是有非常非常高的要求的,就是当。你的存储现在如果说没有达到他业务需要的水平的话,那么很有可能会出现当你需要去做这样的一些呃,加速的仿真,或者说我需要在两天甚至半个月之内,我要把这个某一阶段的仿真任务去完成,那么呃,当存储,嗯,假设性能没有办法满足预期的话,那么就会出现非常非常多的任务就卡在存储这里。
80:01
就是无论你开多少台计算的实例,你这边存储成为了瓶颈,那么它就是成为一个短板,会成为你最后交付你的芯片设计方案里面的一些明显的短板,然后他也是处在这个关键径上,那么其实他对这一块其实就会有非常非常大的这个挑战,然后通常情况下,当用户在IDC环境下去使用呃,就是存储的话,它通常会使用这种netf的这种企业存储,然后它也是目前在IDC环境里面相对而是非常高的一个产品,然后也是一个呃十历的一家外国公司去呃去研发的,然后基本上在业内公认的性能就是最好的,那么在公有云上的话,其实我们并没有提供这种的,这种就是类似于托管服务的这个方式去提供的产品,那么我们会推荐用户去使用我们目前上性能最好的这个性能性的这个产品,然后它能够满足在这种就是E下,无论是前的设计。
81:01
还是后端的设计,它各种各样的IO模型下的这样的一个存储压力,然后其实稍微细一点讲的话,其实就是当目前我们根据我们在云上接的一些呃,用户的使用情况来说的话,一般前端设计的话,它其实会有非常非常多的小文件的访问,然后小文其实对分布式存储来说的话,是非常非常大的挑战。然后那很多项目,无论是开源的一些架构啊,还是说是。就是自研的一些架构,往往它的大文件或者说是吞吐的能力,随着它的这个横向扩展的这个架构的数量的上升,比如说我扩服务器或者说是呃扩硬盘的方式,都是相对而言比较容易能够提升上去的,而当涉及到非常多小文件的时候的话,这个其实它的瓶颈可能就会在它原数据服务上,这块其实就很难通过横向扩展的方式去去有一个非常明显的或者质的这样的一个提升,那么我们性能型的话,其实是呃整体在小环境这里有单独的特别多的优化,然后基本上我们在标准的云上能够提供的原数据操作能力的话,会高达50万级,然后在我们当前看到的一些,嗯,做这种E仿真的这个用户的话,它其实原数据操作通常在前端设计这个阶段的话,呃是差差不多在10万级,然后里面主要是就是get,主要是get attribute和access lookup这一类涉及到。
82:28
对于呃,文件属性获取的这样的一些呃延续操作会比较多,会占到85%以上,然后同时的话的就是可能还会有伴随非常多的open和close的操作,主要是他在这个前端设计里面的话,它会涉及到很多小文件的这个打开读的这样的一些操作。然后前端设计完了之后的话,其实就会到他后端设计,主要是会涉及到一些,呃,比如说已经设计完的工程文件的这个顺序访问这个的话,通常对带带宽其实会有比较高的要求,然后总的来讲的话,其实就是在eda这个场景下的话,它对大大文件的要求和对小文件的要求的话,其实都是呃对存储比较高的一个挑战,然后存储都需要在这两方面进行满足之后,才能够达到用户的这样的一个呃基本的业务要求,然后也是整个仿真场景下,因为仿真还不仅是eda嘛,就是我们当前看到的所有的仿真场景里面,Eda的这个挑战是最高的。
83:26
然后然后就是在大文件和小文件挑战中的话,小文件挑战往往也是更大的,然后我们经过最佳的实践来来说的话,就是用我们的特性的话,就是因为它非常强的元数能力,和它的这个可向扩展的这个带宽的能力,其实是能够替到用户当前在IDC里面去使用F这样的一个企业的方案。这个是它的IO的一个分析情况,那么就是呃,虽然说我们在上页是主要去推荐了就性能型的这个产品,但就是在呃很多其他的一些仿真场景下的话,它其实当它的性能要求不那么高的话,其实我们也会有一些其他的产品就是供呃用户去选择,就是整体来说的话,Cfs的产品家族主要是分为两个大类吧,就是一个是标准型,一个是性能型,然后这个的标准型和性能型的区别其实主要在它底层的介质是否是啊纯SSD的,然后标准的话,我们是使用这种缓存的方案,就是以SSD去做缓存加速,然后以D去做它主要的一个介质去存储。
84:33
然后性能型的话,就是是全SSD的这个方案,它的延时会有非常非常明显的一个降低。然后在标准型之下的话,我们又会分为两个架构,一个是通用标准型,它是我们目前就是应该是线上的用户使用是最多的一个产品,原因是它其实整体的性价比是最高的,然后同时他用这种相对比较方便和比较小的这样的一个实力的,呃,起步容量其实是呃,在很多通用场景的话,是用户是比较喜欢去选择这样的一个产品,然后在仿真里面的话,我们通常只建议在通用标准型里面去存一些,呃,比如说相对比较温的这这样的一个数据,就不要去做这样的一个热数据的存储,因为它整体的带宽的话,其实目前是最高是只能到300兆每秒,对。
85:23
然后这个是关于通用标准型,而T标准型的话是其实我们当前对它的定位是在这种呃相对以带宽密集型的场景为主的,然后它具有非常好的这个拓展能力,但是它整体在整个就是防延时和它的这个这个这个就是呃小文件的性能上的话,其实是不及这个高性能性的,然后所以说呃像超过标准性的这种情况下的话,我们可能呃如果说是在这种高性能计算的场景下的话,我们可能更更建议是在这种呃卫星遥感啊,或者说是呃这种。比如说呃,影像渲染这样的一些场景去使用,因为主要是的这样的一个吞吐或者带宽的这个,而能下面的话,我们也是同样能够提供两款,第一款是通用性能型,它的整体技术架构其实跟通用标准型是一样的,它的区别的话,其实就主要是在底层换成了全m me的SSD,然后这样的话,它整个的延时会有一个比较明显的降低,然后但它的带宽的话,就是因为当前我们。
86:27
现在的这个技术架构,它其实呃横向扩展能力不是特别特别理想,所以说它带宽是最大能够到一个GB,然后它它通常可以使用的就是说是当我们的呃,Eda或者说其他一些仿真场景,它的规模相对比较小的时候,那么使用用性能性的话,也是能够帮助用户在就是起步比较低的一个情况下,有一个合适的产品去做选择。然后它因为它起起步容量是零,也说用户比如说只有两到三个T,或者说只有几百G的数据的话,那肯定用特性能型这种20TB起步的话,其实就会在费用上就相对有一些不划算,那么使用通用去做一个起步的方案话,也是一个切实可行的一个产品选择。
87:10
然后现在形式我们最推荐的就是因为通常情况下的话。做一次仿真,尤其是当呃我我们现在对这个仿真的无论说是精度,还是对它的这个场景覆盖的完整度的话,其实有一些更高的要求,那么它原始的数据量的话,其实通常情况下都是会在几十T的这样的一个规模,那么在这个情况下使用T性能型,它起步20T的这个限制的话,其实在正常使用情况下是呃不会对用户造成非常大的一个困扰的,那么使用性能型的话,它能够具备非常好的一个扩展性,就是当你未来需要有更多的数据去存储在这一个实例的时候,那么呃,它的这个扩展性可以实现这种在线的无缝的扩容。然后第二个的话就是它的延迟是目前最低的,然后它的那个,呃,比如说我对应就是我们的这个小文件或数据的这样的能力的话,其实它也是目前我们性能表现最好的一个产品,然后同时的话,它的延迟也是非常非常低的,然后这里的话就其实就是主要就推荐使用新型这样的一个产品去适配。
88:18
然后这个是整个的cfs的一个产族,在讲完了cfs体的这个产品之后的话,我这里也想啊单独去讲述一下,就是cfs整体的这这样的一个优势亮点,然后整体的话主要是分为三个主要的方向,一个是极可靠,呃,可靠性永远是存储的一个基础,然后因为你失去了数据的可靠的话,那其实你的性能和你的生态都是完全没有意义的。然后第二个的话,就是关于它的一个卓越的性能,这个也是支持用户这样的一个,呃高效的业务效率的话,其实是一个基础,只有当它性能能够满足它业务的要求之后的话,他才能够顺利的去跑整来,然后这个的话,其实是对存储比较高的这个调整。然后第三个的话,就是一个丰富的生态,因为在云上的话,它业务要保证,就是用户要保证整个能够顺利的跑起来,它其实并不只是使用纯属一个产品,它可能还涉及到很多云服务器啊,或者说容器啊,甚至我们的一些pass平台的这样的一个兼容,这样的话它才能够更高效的把这些呃,就是已经呃成熟的或者稳定的产品去使用起来,去加速它的这个业务效率。然后在极可靠里面的话,其实我们主要是有三个主要的特性,一个是我们在副本冗余方面的话,我们是采用了三副本的方式,去保证数据有可以达到九个九的可靠性,然后也就是说它任意两份数据同时失效的话,其实我们都是能够保证数据是一直安全的存放在我们的存储介质里面的。
89:45
然后第二个的话就是在数据加密方面,其实呃,很多用户的话,他其实尤其是在eda场景,他对数据的这个合规的加密,或者数据安全性其实有一个比较高的一个要求,甚至他们的数据都是严格要求不能够走公网的,那么在这个背景,那么在这个背景下的话,数据加密就是显得非常非常重要,然后我们是能够支持到这种基于KMS一个透明加密,这个对用户来说的话,它整体使用是没有任何的这样的一个改动的,就是它是一个完全透明的一个加密,就是用户开启这个加密功能之后的话,就是用户的访问跟原来是完全一样的,然后。
90:23
我们后端会在就是自动的透明的帮用户去进行这样的一个加密的动作,这个对用户来说使用起来非常非常友好的,同时它整个性能的话,其实基本上对用户来说是没影响的。然后第三个的话就是在数据备份这一块,呃,这个主要是防止用户在呃做这种误操作啊,或者说是误删除的这个情况下,呃丢失一些关键的数据,就是因为因为用户自己的一些呃情况,或者说是一些特殊条件导致的数据丢失或者数据删除,那么呃基于数据备份这个功能的话,就是能够快速去做这样的一个恢复,去保证它后面的业务不会因为这种误操作而产生负面的影响。
91:04
然后在卓越性能里面的话,其实我们是呃也是有三个点,就是第一个是我们在呃呃协议站这一块的话,其实我们是自研了一套用户态的这个协议站,它能够白pass掉K,把整体的这个延时的话,从呃微秒从毫秒级降低到百微微秒级,然后去提供这样的一个极致的性能。然后第二个的话就是啊,当小文件特别多的时候,它其实伴随着就会有非常多的这个元数的访问,主要是这种open close和get attribute。那么对应的话,其实我们在服务端的话,其实就会有这样的一个原数据调原数据条件化的这样的一个特性去保证当用户从客户端发过来的原数据请求的话,服务端是能够并发的节点的去处理,那么我们目前呃是能够支持到每秒。读取30万个小文件,然后基本上是在当前我们看到的这样的一些复杂的或者说是大规模的这样的一个高性能计算场景,都是不会有任何瓶颈的,然后然后第三个的话,其实主要是面向于这种啊大文件的这个优化去,呃在嗯文件的这样的一个大小到达一定级别之后的话,我们会做自动自动的这样的一个挑战化,去让它的这个大文件的性能其实能够啊比较高效的快捷的分布到多个服务端节点上,然后让多个服务端节点并发的去支持它的这这样的一个读取或者写入的操作,然后去大幅的提升它的带宽的能力,然后我们现在单件的话,基本上都是能够跑跑到2G大的这样的一个带宽。
92:36
然后第三部分的话,其实呃主要讲一下就是嗯,用户在使用方面的一些便捷性吧,就是首先是文件的话,天然是能够支持到这种这种完整的po语义,那么这个对用户最大的讲价值就是啊,它能够非常高效的和这种云上的计算实例,比如说CBM,然后黑服务器或GPU服务器去做这样的一个对接访问,也就是简单来讲就是直接的呃,执行某一套指令就可以挂得上。
93:05
啊,然后挂载完之后的话,它就会变成本地的一个目录,那么这个目录的话就是就跟用户啊,比如说他去跑这种,呃呃,比如说。Enter graphic这样的一个ED的商业软件的话,其实呃,它整个兼容性的话就是不会有任何问题,因为它就是本地的一个目录,那么这些软件天然都都是对这种本地目录是兼容的,这个其实对用户的价值是非常高的。然后第二个的话,就是我们云上其实会有很多其他的一些,呃,Pass的平台,就包括了这样的一个TPC是我们面向于高性计算场景去做的一个pass平台,然后台是我们面向机器学习去做的pass平台,然后t ke是我们的一个容器化的平台,那么这些平台的话,其实它本身因因为它能够支持到这种自动化的去部署这样的一个调度的,呃这样呃,那个S这样的一些调度器,那么其实哦,我们的云文件存储能够跟他们快速的对齐上的话,其实对用户去快速部署环境去上业务的话,其实也是有非常大的这个帮助的。
94:10
然后在二三年的话,其实我们整体会进一步的去加强啊,文件存储在高性能计算这一块的一些关键的特性,然后就包括了这个数据生命周期的一些管理,然后去降低用户的这个单位成本,以及数据备份,这个备份的话,它会支持到我们的一个跨地域的一个备份,然后去支持这样的一个,呃,更高的一个业务安全性的一个要求,然后在二三年年底的话,我们也会支持到这种一步开启的加速技术去实现,就是混合云的这样的方案,去保证用户在当前的嗯。就是在IDC已经有相关的呃一些环境或者说资源的情况下,去高效的去去更高效的利用云上弹性的资源,然后去降低这种数据流动所带带来的一些管理复杂,然后第二点的话,就是我们还会去做一个客户端的一个缓存的一个加速,去去进一步的去降低这种重复访问呃数据的场景下,它的这个延时预估最低可以再降低40%以上,这个是我们一个比较呃核心的三个方面的优势亮点嘛,然后那个下页的话,其实是想再说一下我们的一些关键的技术上的一些亮点,就是第一个的话,就是我们在智能预取这一块的话,其实会有一个智能预读的技技术,主要是去加大用户业务访问的这个缓存命中率。
95:33
然后在这种相对而言有重复数据访问的情况下的话,提升缓存命中率往往是最直接的去加速业务的方案,然后第二个的话是我们在访问协议上有一个优化,就是通常的标准的NFS协议的话,其实它只能够做到一个客户端去链接到一个服务端上,那么这个的话,当客户端的性能比较强的时候,比如说使用这种裸金属服务器服务器的时候,现在云上的话,裸金属服务器是能够支持到100G小B的这样的一个带宽,那么呃,通常在服务端上的话,它其实并没有办办法提供这单个服务端节点,其实没有办法提供这么高的一个性能,那么呃,这样就势必会带来一些就是客端跟服端的,呃,就是上线不对等,导致客户端受到这个服务端的这个瓶颈。
96:19
然后无法发挥出它的这个性能,那么在我们优化之后的话,其实主要能够支持的就是单个客户端能够同时并发的去跟多个服务端去做响应,然后多个服务端并发的去呃响应客户端的请求,那么这样的话呢,这样来说的话,就是单客户端它性能就可以发挥到最大,就是以我们当前的一个100G云上的那个呃铂金属服务器来说的话,其实我们当前在测试的时候,已经是能够百分百的去保证它的这个带宽和LPS能力都是可以打满它的这个客户端的这个上限,这样的话就是极大的能够释放用户这种。呃,比较呃,单台设备非常强力的,这个场景下的这个性能。
97:02
然后然后第三个的话是我们整个在呃缓存方面的这个管理的话,其实我们不仅是有数据的缓存,我们也会有单独的原数据的缓存,然后这块的缓存的这个呃淘汰算法的话,都是基于这种LRU的方式去去做的,然后整体的话就是呃。你访问就是近期访问最多的啊,也不说近期访问最多,应该是近期访问的文件的话,它就不会被淘汰下去,然后你当你很长时间没有访问的话,那么系统会自动的去做缓存的这样的一个清理,这个是整个技术特性上的。一些亮点吧,然后最后的话,其实就想呃,快速说一下,就是我们在这块是整体加高的一个情况,就是首先是我们会有非常多的缓存加速的技术去保证用户的这样的一个极端,或者说高负载业务场景下的这个性能保证。就是以。
98:00
X到的话,其实我们有单独的一个强一致的一级缓存,我们叫它cash,然后。然后在这个开里面的话,就是说它跟后端的服端缓存,它是一个强一致的一个状态,然后从客户端下来之后的话,它会到服务端的这样的一个缓存,然后当这个里面也会包含比较复杂的这个挑战化的数据化缓数据的缓存和它的呃独立的相相对比较独立的这个原数据的一个缓存。这个是Linux客户端,然后Windows客户端的话,我们是当前是使用协议机的方案,然后它也会有这种。协议机上的二级缓存及协议机上的客户端的缓存,然后到及最底层的这样的一个服务端的例化数据缓存和原数据缓存,然后最长的时候它会有4G缓存,然后这些缓存的设计的话,其实是主要就是面向于这种啊,高带高带宽高负载的情况下,去降低这种IO直接落到磁盘上对磁盘的这个呃极限性能所造造成的这个压力,然后通过这多级的缓存加速去提速用户的业务访问,然后我们最大是可以支持到100GBG的带宽和呃接近90%的这个缓存命中率,以及这种压号秒计的延迟。
99:15
然后最后这个科幻案例的话,我简单快速讲一下吧,这个是一个呃,就是做芯片设计的一个用户的话,他原来是在IDC的环境下去使用的这个的存储,然后在云上的话,其实跟我们合作主要也是呃解决这个弹性算力的一个问题,因为它的这这些。芯片设计的项目的话,其实呃来了之后,他其实整个如果都是通过私有云的方式去采购的话,他整个周期会太长了,就是他从接到这个任务之后,再去做这样的一个采购的话,往往需要到三到五个月,可能才能把整个环境升级上去,那么在云上的话,他往往可能如果对云上整个操作比较熟练的话,其实一周以内他就可以把整个环境去部署好,那么在这个背景下的话,其实它使用的其实就是我们的呃,TCFS这样的一个高性能文件存储,配合上这个TPC的这个高计算平台去做它整个芯片的这个设计,然后。
100:20
右边是我们的一个就是他的在做应该是呃real test的一个相关的一个报告,然后整体的这个新的表现也是呃能够就是跟他的IDC的这个状况是一个差不多的一个水平,然后呃当他整个算下来,他的t Co比IDC的话,他更低的情况下,他就非常有意愿去使用云上弹性的资源去做这样的一个,呃就是风,就是类似于峰峰填谷的这样的一个,一个就是业务处理或或者说业务调度吧。这个是他对这个用户来说,他最大的一个价值吧,就是用营商的弹性算力,然后快速去部署,然后快速去解决业务峰值上的这些算力,或者储上的这个需求。
101:05
然后这个就是我今天整体的这个分享,然后感谢各位的聆听。谢谢老师的精彩分享,时间过得很快,本期活动也进入到了尾声,再次感谢大家的参与与关注,我们下期活动再见。
我来说两句