七千字详解阿里云CIPU技术架构
近日,阿里云智能总裁张建锋在2022阿里云峰会发布云基础设施处理器CIPU(Cloud Infrastructure Processing Unit),将其定义为替代CPU成为云计算的管控和加速中心。
在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机。
众所周知,传统IT时代,微软Windows+Intel联盟取代了IBM PC霸主地位;移动计算时代,谷歌Android/苹果iOS+ARM共同主导了移动终端的技术架构;那么云计算时代,阿里云飞天操作系统+CIPU组合能发挥什么样的价值?
本文希望通过对CIPU的深入技术解读,回答读者普遍关心的关键问题:CIPU到底是什么?CIPU主要解决哪些问题?CIPU从何而来,未来又将往何处去?
在距离2006年云计算鼻祖AWS先后发布S3和EC2有16年之余,距离2010年BAT针对云计算是否“新瓶装旧酒”之争已有12年历史之时,同时Gartner 2021全球IaaS 收入已达900亿美元的当下,市面上依然存在着一些伪云计算概念,比如,转售IDC硬件、转售CDN等。
云计算行业再次站在了分水岭上,有必要看清楚云的未来到底是什么?什么才是我们需要的云计算?
作为和水、电一样的公共资源和社会基础设施,云的核心特征是“弹性”和“多租 ”。
弹性,从广义上讲,是让IT能力轻松跟上用户的业务发展;从狭义上讲,则带给用户无与伦比的灵活性。
IT计算力已经成为很多业务的支撑性能力。当业务迅猛发展时,如果计算力跟不上,那么业务必然会受到严重的制约。
但是计算力的建设并不是一蹴而就的,从地、电、水到机房建造,从数据中心网络铺设到Internet接入,从服务器选型、定制、采购到部署、上线和运维,从单机房、多机房到跨地域甚至跨大洲,然后是安全、稳定性、容灾、备份……最后是最难的,优秀人才的招聘、培训和保有,这些无一不是耗时、耗力、耗财的事项,谈何容易。
下图展示了一个公有云用户随着业务的极速扩张所购买的计算力的增长曲线个月,计算力需求从零爆发式增长到了数百万核。弹性计算充裕的计算力供给,让用户业务的发展如虎添翼。
逻辑清晰的读者可能已经隐约感觉到“弹性”和“多租”并非严格的正交和并列关系,那么为什么笔者特意把“多租”上升到“弹性”并列的高度来进行讨论?
不可否认,私有云确实在一定程度上解决了企业IT资源灵活高效使用的问题,但是私有云和公有云在“多租”这个核心业务特性差异,导致二者之间的天壤之别。
准确完成对云计算的“弹性”和“多租”业务特性的定义,则可以进一步讨论技术实现层面,如何实现“弹性”和“多租 ”功能,如何在极致安全、极致稳定、极致性能、极致成本等四个维度讨论云计算技术实现层面的演进。
PaaS主要指数据库、大数据、AI等数据管理平台服务化以及K8s云原生和中间件;
传统意义上,云计算主要是指IaaS云服务,PaaS和SaaS则是IaaS云平台之上的云原生产品和服务;同时由于本文主题CIPU主要位于IaaS层,因此PaaS和SaaS对CIPU的需求不会在本文重点展开。
为了实现IaaS计算、存储、网络等IT资源灵活按需供给,其核心特点是资源池化、服务多