聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

亚马逊云科技十年领跑,为云而生的硬件创新进入加速期,普惠百万用户

2022-12-01 23:49 浏览: 2208678 次 我要评论(0 条) 字号:

自 2013 年亚马逊云科技推出首颗 Nitro芯片,2015 年以 3.5 亿美元收购芯片制造商 Annapurna Labs 起,再到 2018 年发布第一代云原生通用处理器 Graviton,2020 年推出第一代自研推理芯片 Inferentia 和训练芯片Trainium,到现在亚马逊云科技已拥有虚拟化芯片Nitro、云通用处理器Graviton、AI/ML芯片三条产品线。

亚马逊云科技在硬件创新上从未停止,并且一直秉承以更低的成本,为客户提供更优性能,更安全可靠的云计算为使命。目前云计算已深入到整个云基础设施,芯片创新之路是最底层的创新,是改变云计算游戏规则的能力。亚马逊云科技的自研芯片之路,开业界先河,引业界潮流,一路走来,非常坚定,也非常快速。

美国时间 11 月 28 日,2022 亚马逊云科技 re:lnvent 全球大会正式拉开帷幕,这场堪称云计算领域春晚的技术盛会立刻吸引了全世界技术爱好者的目光。让我们一起看看走在云计算之巅的亚马逊云科技,这次又带来哪些让大家“燥”起来的重磅更新。

Nitro v5 重磅发布,重构云计算架构,带来性能大提升

曾经“半虚拟化”被认为是实现高性能 VMS 的好方法,但是通过与客户沟通,亚马逊云科技了解到这并不能满足客户对性能和稳定性的需求,从而引入 Nitro 系统,大大提升了亚马逊云科技计算实例的性能、安全和创新速度。Nitro 架构为亚马逊云科技的云服务提供了底层的支持,用轻量化的 Hypervisor 配合定制化的硬件,让应用程序在计算实例上获得近乎于在裸金属上的性能。

2013 年亚马逊云科技开始定制第一代 Amazon Nitro 芯片,2017 年正式对外宣布第三代 Amazon Nitro 芯片, 2020 年推出第四代 Amazon Nitro 芯片,作为亚马逊云科技所有计算实例的基础。时间来到 2022 年,在这次 re:Invent大会上,亚马逊云科技高级副总裁 Peter DeSantis 正式发布了第五代 Amazon Nitro 系统。

本次 Amazon Nitro v5 迎来大幅升级,相比上一代产品有着显著提升。Nitro 芯片晶体数量增加了一倍,提供了更多的计算性能,带来了 50% 的 DRAM 内存性能提升,PCIe 带宽提升了 2 倍。同时,在数据处理能力提升 60%、时延降低 30% 的前提下,功耗也得到了进一步降低。

片创新更重要的另一面是能把硬件创新的能力,快速地通过云计算实例提供给到客户。在 Amazon Nitro 系统的加持下,目前亚马逊云科技已提供了超过 600 款计算实例,可以满足几乎一切云上负载的需求。每天有超过 6000 万个新的 EC2 实例在亚马逊云科技上被创建。


自研芯片家族再升级,服务高性能,支撑基础算力


在 2018 年的 re:Invent 大会上,亚马逊云科技发布了自研的 Graviton 第一代处理器。这是亚马逊云科技为云设计开发的芯片,之后 2020 年、2021 年陆续推出了第二代、第三代。与第一代  Graviton 处理器相比,Graviton2处理器在性能和功能方面实现了重大飞跃,性能是前者的7倍、计算核心数量达到 4倍、缓存达到 2 倍、内存速度达到 5 倍。Graviton 2 每个核心的加密性能速度比第一代 Graviton 处理器提高 50%。一年后发布的 Graviton3 处理器进一步将计算性能提高 25%,浮点性能提高 2 倍,加密工作负载性能最多提高 2 倍,基于前沿 DDR5内存技术的内存访问速度提高了50%,在同样的性能上可以节省60%的能耗。

Formula1(F1) 赛车始于 1950 年,是世界上最负盛名的赛车比赛,也是世界上最受欢迎的年度体育系列。“基于 Amazon Graviton2 的 C6gn 实例为我们的一些 CFD 工作负载提供了最佳性价比。我们现在发现,在相同的模拟中,Graviton3 C7g 实例比 Graviton2 C6gn 实例快 40%。我们很高兴 EFA 将成为此实例类型的标准,并鉴于性价比的大幅提升,我们预计基于 Amazon Graviton3 的实例将成为运行我们所有 CFD 工作负载的最佳选择。”Pat Symonds,Formula 1 Management 的首席技术官说道。

2022 re:Invent 大会上,亚马逊云科技正式推出了针对高性能计算优化的 Amazon Graviton3E 芯片,进一步优化了浮点运算性能,提升 35%,对比上一代耗能减少了 60%。此外,亚马逊云科技在这次大会上还同时推出了基于 Amazon Graviton3E 的高性能计算实例 HPC7g和 C7gn 。可见亚马逊云科技在自研芯片上不仅推出速度非常快,而且每一代都取得了极大的飞跃和提升。

新的 HPC7g 实例类型具有 最多64 个 vCPU  和 128 GB 内存,主要适用于天气预报、生命科学、工程计算等高性能计算场景;新推出的 C7gn 实例相比 于C7g,为网络密集型工作负载而设计,如数据分析、集群计算作业场景,以及网络虚拟化设备等,将支持 200 Gbps 的网络带宽,提高 50% 的数据包处理性能。


创新从未停止,AI 芯片再进化

亚马逊云科技在云计算方面的创新一直没有停止,而创新的动力源泉就是客户的需求,每一个实例背后都有一个客户应用场景。例如,亚马逊云科技把苹果 Mac Mini 的算力搬上云端,让苹果的应用开发者也可以方便地使用云上算力资源进行应用开发。现在深度学习已经应用到了我们生活的方方面面,如推荐算法、语音识别、视觉识别等。深度学习模型的规模也在爆炸性增长,最近新出模型都有了一千亿的参数,这些都对底层的计算平台提出了非常高的要求。深度学习分为训练和推理两步,训练的过程很慢,大的模型需要训练比较长的时间,而训练好的模型可以被重复推理使用,大规模商用模型每天可能跑上万次推理,所以推理所需花费反而会比较大。

在 2018 年 re:Invent 上亚马逊云科技正式发布了旨在以低成本提供高性能推理的 Amazon Inferentia 芯片,2019 年发布了对应的 Inf1 实例。Inf1 拥有有多达 16 个 Inferentia 芯片,与当时基于 GPU 的 EC2 实例相比,吞吐量最高可提高 2.3 倍,每次推理的成本降低多达70%,出色的性能使得 Amazon Inferentia 在面世不久就收获了众多客户的认可。2022的re:Invent正式发布了EC2Inf2实例预览版,旨在以最低的成本为推理应用程序提供更高的性能。与 Inf1 实例相比,Inf2 实例提供高 3 倍的计算性能、高 4 倍的吞吐量和低 10 倍的延迟。Inf2 是第一个支持分布式推理的推理优化型 Amazon EC2 实例,该技术将大型模型分布在多个芯片上,为参数超过 1000 亿的深度学习模型提供极佳性能。Inf2 实例支持随机舍入,这种以概率方式进行四舍五入的方式与传统的四舍五入相比,能够提供更高的性能和更高的精度。In2 实例支持广泛的数据类型,包括可提高吞吐量并降低了每次推理功耗的 CFP8,和可提升尚未利用到低精度数据类型模块性能的 FP32。

2020 年re:Invent,亚马逊云科技发布了专门用于训练机器学习模型的定制芯片Trainium,并于2021年发布了对应的Trn1实例。Trainium 支持 TensorFlow、 PyTorch 和 MXNet。Trn1实例支持最多 16 颗 Trainium 加速芯片。在 Trn1 上运行 Hugging Face BERT 大模型,其性能对比 GPU 实例有 42% 的提升,成本则降低了 54%。Trn1 第一次把实例的网络带宽提高到了  800GB。在 2022 re:Invent上,面向新的 AI 训练需求,亚马逊云科技推出了 Trn1n, 针对网络通信进行优化,增加了支持 1600Gbps 的 EFA 网络功能,使其能够更快地处理超大规模分布式模型训练场景。

创新理念发布:SRD for Everything

除硬件更新外,亚马逊云科技在本次 re:lnvent 大会上还介绍了 SRD(Scalable Reliable Datagram )网络协议。PeterDeSantis介绍到,相比于传统的TCP单路径路由网络,SRD协议使用多路径路由,允许数据包在乱序到达时进行快速整理,提供跨多条路径的负载平衡以及丢包故障中快速恢复的功能,SRD的性能在云计算环境上优于 TCP 协议。

Peter DeSantis 强调 SRD 基于 Nitro 等硬件进行了调整和优化,通过 Nitro 系统将计算、网络和存储与主机隔离开来,以提升客户应用负载运行性能,同时将重传延时从毫秒降低到微秒,极大降低传输延迟。

另外2022re:lnvent还推出了全新的ENAExpress,ENAExpress以SRD为基础,与TCP相比它将流量的P99延迟减少了50%,将P99.9延迟减少85%,同时还将最大单流带宽从 5Gbps 增加到了 25Gbps。

Peter DeSantis 也表示,SRD 并不局限于网络加速功能,会作为亚马逊云科技的核心加速基础创新,SRD 还会在 EFA 高性能计算、EBS 存储上应用,实现真正的 SRD for Everything。

结语

亚马逊云科技自研芯片组成的芯片家族,以及强大的技术创新能力,为客户提供“量体裁衣”,为不断变化的工作负载提供更匹配的云服务,同时也不断优化云服务的性价比。其次,作为全球领先的云计算公司,亚马逊云科技通过支持丰富的客户应用场景的经验反馈,更推进了亚马逊云科技的芯片创新之路,这是无法比拟的,同时资源的投入,及用户规模的增长,亚马逊云科技的云计算之路已越走越快,越走越宽。

亚马逊云科技高级副总裁 Peter DeSantis 在大会上的演讲回放现已新鲜出炉,点击阅读原文,查看更多大会精彩内容。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复