[db:摘要]...
在当今的科技范畴,人工智能无疑是最为刺眼的明星,并深刻到咱们生涯中的方方面面,从谈天呆板人到主动驾驶,从智能制作到药物研发……跟着AI技巧的一直提高,算法日益庞杂,对算力的需要也迎来了暴发式的增加,也对底层基本设备提出了更高的请求。固然,强盛的算力是开启数字化赋能新征程、赋能千行百业、衔接智算将来的主要载体,也是推进以AI为代表的新质出产力开展的主要驱能源,但这所有都离不开底层基本设备的翻新,而亚马逊云科技,正在经由过程其翻新的技巧气力,缭绕自研芯片、效劳器、收集、存储、数据库跟软件开辟东西等因素构建片面且强盛的基本设备,为AI时期勾画出美妙的将来。纵向扩大:盘算机能再晋升,低本钱高效力“两着花”固然年夜少数人都晓得亚马逊云科技是云盘算的首创者跟引领者,但现实上从亚马逊云科技在2013年推出Nitro1芯片的时间,就不丢脸到其在自研芯片方面的野心。十多年从前,以自研芯片为代表的基本设备才能依然在一直演进,这极年夜拓展了亚马逊云科技的翻新界限,进而为普遍而深刻的全栈云跟AI效劳供给了无穷可能。就在未几前的re:Invent 2024年夜会时期,亚马逊云科技发布Amazon Trainium2正式可用,其机能比第一代产物晋升4倍,可在极短的时光内练习基本模子跟年夜言语模子。其超强的单效劳器机能是亚马逊云科技在纵向扩大范畴的又一次冲破,用以满意年夜范围天生式AI练习跟及时推理的机能需要。同时这也是亚马逊云科技初次将效劳器机架搬上主舞台,足见其对Amazon Trainium2及其相干系列基本设备宣布的器重水平。Amazon Trainium2针对AI停止了专门计划,并采取了脉动阵列(Systolic Arrays)的硬件架构,使得盘算步调之间防止频仍的内存拜访,直接将成果从一个盘算单位通报到下一个盘算单位,在增加内存带宽压力的同时优化盘算资本,以放慢AI盘算中的矩阵跟张量盘算。别的,Amazon Trainium2还供给了Neuron内核接口Neuron Kernel Interface(NKI),这使得开辟者能够直接拜访裸机的Trainium芯片,编写盘算内核以最年夜限制地晋升盘算麋集型任务负载的机能。芯片翻新之外,在单效劳器机能的纵向扩大方面,亚马逊云科技也开展了良多任务,这是由于跟着模子庞杂性跟数据量的增添,由于并行化的限度,纯真扩展集群范围已无奈无效收缩练习时光。同时,及时推理的需要也超越了单实例架构的承载才能。因而,晋升单效劳器机能就显得尤为要害,而Amazon EC2 Trn2实例跟Amazon EC2 Trn2 UltraServers效劳器就是增强纵向扩大才能的详细表现。此中,Amazon EC2 Trn2实例装备了16个Trainium2芯片,可供给高达20.8 Petaflops浮点算力的机能,十分合适练习跟安排存在数十亿参数的年夜型言语模子(LLMs),岂但如斯,与以后基于GPU的EC2 P5e跟P5en实例比拟,Amazon EC2 Trn2实例的性价比晋升了30-40%。而全新推出的Amazon EC2 Trn2 UltraServers效劳器则装备了64个彼此衔接的Trainium2芯片,采取NeuronLink超速互连技巧,可供给高达83.2 Petaflops浮点算力,其盘算、内存跟收集才能是单一实例的四倍,可能支撑练习跟安排超年夜范围的模子。在练习方面,Amazon EC2 Trn2 UltraServers使客户可能冲破单个Trn2实例的限度停止扩大,从而增加练习时光,放慢投放市场的速率,实现疾速迭代以进步模子正确性;而在推理任务负载方面,凭仗Amazon EC2 Trn2 UltraServers的超强机能,客户能够用于晋升其出产情况中万亿参数模子的及时推感性能。正如亚马逊云科技高等副总裁Peter Desantis所说,“假如你要构建一个万亿参数的AI模子,这就是你须要的效劳器。”固然,对效劳器机能纵向扩大的器重也不料味着亚马逊云科技摈弃了超年夜范围集群,现实上,在re:Invent 2024时期,亚马逊云科技重磅推出了Project Rainier,这是一个领有数十万个Trainium2芯片的新集群,该集群将支撑更年夜范围跟更庞杂的AI练习名目,为诸如科研摸索、工业进级等须要年夜范围算力支撑的范畴开拓了全新的开展空间,助力前沿翻新冲破重重妨碍,实现逾越式开展。别的,亚马逊云科技也对下一代自研AI推理芯片Amazon Trainium3停止了剧透,该芯片采取3nm工艺制程,估计将于2025岁终正式上线,届时无望使集群机能实现四倍的奔腾式晋升,并在机能、能效以及密度等要害指标上建立全新的行业标杆。横向扩大:翻新AI收集架构,减速利用落地除了抉择适配的硬件资本以外,对数据核心而言,高效的收集架构也至关主要,一个超年夜范围、超高带宽、超强牢靠的收集,能够为AI练习供给强无力支持,从而节俭练习本钱、收缩练习时光,减速各种AI利用走向落地。为此,亚马逊云科技推出了第二代UltraCluster收集架构(即10p10u),它不只能完善支撑超越20000个GPU的协同任务,将带宽进步到10Pb/s,更是将耽误严厉把持在了10ms以内,这一冲破性的收集进级直接使得模子练习时光收缩了至少15%,为那些对及时性请求极高的AI利用场景注入了强盛的能源源泉。详细来说,该架构经由过程将16根独自光芒电缆构成一个单一的衔接器,将庞杂的组装在工场实现,从而增加了54%的装置时光;定制的光纤插头跟光纤电缆则在机架到达数据核心前就停止了片面的测试跟验证,在增加布线时光的同时还供给了维护蜜蜂,避免尘土颗粒进入光纤接口。在从前的12个月里,亚马逊云科技曾经装置了超越300万条链路,这也使得其成为亚马逊云科技有史以来扩大最快的收集。除此之外,亚马逊云科技还推出了全新的SIDR(Scalable,Intent Driven Routing)收集路由协定,该协定专为处理AI收集中光链路毛病频发、路由更新迟缓的成绩而计划。它联合了会合计划的全局把持跟去核心化的疾速呼应:中心计划器提宿世成“收集用意”并推送到各交流机,当链路毛病产生时,交流机可自立决议,防止依附中心把持器。与传统的BGP、OSPF等协定比拟,SIDR在亚马逊云科技的10p10u收集中能在不到1秒内规复收集,速率比传统方式快10倍,明显晋升了散布式AI练习中的牢靠性跟及时性,确保收集在毛病产生时也能坚持高效运转。全新数据核心组件:支撑高密度AI负载,推进可连续开展从物理机时期到虚构化时期,再到云盘算时期,数据核心始终在连续退化,固然其状态、架构以及所用到的技巧在一直变更,但其一直是营业翻新的基石,现在,跟着全部社会步入智能化时期,数据核心的计划也开端向顺应高功率密度改变,亚马逊云科技也在一直调剂跟优化数据核心,从而更好地拥抱AI海潮。详细来说,在简化电气跟机器计划方面,亚马逊云科技最新的数据核心计划优化中包括了简化的电力调配跟机器体系,实现基本设备的可用性达99.9999%。同时,简化的体系也将可能遭到电气成绩影响的数目增加了89%。在冷却体系方面,亚马逊云科技开辟了一项进步的机器冷却处理计划,经由过程在新建及现无数据核心设置“液体到芯片”的冷却体系,将风冷跟液冷实现无缝集成,用于支撑包含Amazon Trainium2芯片、NVIDIA GB200 NVL72机架、亚马逊云科技收集交流机跟存储效劳器在内的基本设备的冷却。无论客户运转传统任务负载仍是AI模子,这种机动的多形式冷却计划都能确保亚马逊云科技以最低的本钱为客户供给最佳机能跟效力,并放慢AI任务负载的上市时光。为了进一步支撑高密度的AI任务负载,亚马逊云科技还经由过程软件计划优化了数据核心的机架规划以最年夜化电力应用效力。该软件由数据跟天生式AI驱动,可能准确猜测效劳器的最佳安排方法。依据亚马逊云科技的估计,在将来两年内可能将机架功率密度晋升6倍,并无望在将来进一步晋升3倍。把持体系方面,由亚马逊云科技自立研发的把持体系曾经利用于亚马逊云科技的电气与机器装备中,实现了监控、报警跟经营流程的尺度化。比方,应用亚马逊云科技外部构建的遥测东西应用亚马逊云科技的技巧,可能供给及时诊断跟毛病消除效劳,这些效劳确保客户坚持最佳运转状况。别的,亚马逊云科技在晋升把持体系冗余度的同时,也简化了体系庞杂性。这些改良使得亚马逊云科技基本设备可用性计划到达了99.9999%。最后在绿色数据核心方面,亚马逊云科技不只采取了更高效的冷却体系,在保持雷同兆瓦用水的条件下增加了46%的机器能耗,还采取了标准的低碳钢跟低碳混凝土,联合优化构造计划增加了钢材的应用总量,而且备用发电机也采取了可再生柴油,从而年夜幅度增加温室气体的排放量,以推进数据核心的可连续开展。结语翻新是企业赖以生活开展的魂魄,是连续开展的保障,也是驱动数字化转型的中心地点,作为一家将翻新贯串一直的云效劳供给商,亚马逊云科技经由过程在芯片、收集架构、数据核心计划等多个维度的连续翻新,不只引领了行业的变更,也为充斥可能性的智算将来打好了基本。