英伟达新“王炸” 未发先难产
栏目:行业动态 发布时间:2024-12-28 08:34
[db:摘要]...
继B200/GB200芯片交付推迟后,英伟达或又面对新品难产的成绩。12月24日,据Wccftech报道,英伟达最新旗舰芯片B300/GB300的参数曾经确认。此中B300的显存规格从上代产物的192Gb晋升至288Gb;GB300平台将初次应用LPCAMM内存模块计划,并装备带宽晋升至1.6Tbps的光模块,以确保数据高速传输。在机能年夜幅晋升的同时,B300/GB300的功耗也被拉到前所未有的高度,TDP(热计划功耗)到达1400W。作为对照,Hopper架构的拳头产物H100芯片,其TDP为350W。这对效劳器的散热计划来说,无疑是个宏大的挑衅。而就在上周,天风国际剖析师郭明錤在研报中表现,英伟达在为B300/GB300开辟测试DrMos技巧时,发明芯片存在重大的过热成绩,这可能会影响B300/GB300的量产进度。只管黄仁勋此前曾屡次表现,英伟达将来将严厉遵守“一年一换代”的准则,但旗下GPU在改用Blackwell架构后,不止一次呈现“跳票”的情形。Blackwell架构,真有成绩?在郭明錤宣布的研报中,指出了B300/GB300现在面对的成绩:由AOS(Alpha & Omega Semiconductor)公司供给的5*5 DrMos计划在测试中过热。先来说说DrMos是什么。这是英特尔在2004年推出的技巧,重要道理是将驱动器跟MOS集成在一同,以减小多个元件的空间占用以及下降寄生参数带来的负面影响,从而晋升转换效力跟功率密度。简略地来说,它就是一个高度集成的电源处理计划。花费级显卡RTX3060上的DrMos,由AOS供给在英伟达Hooper架构芯片上,包含H100/A100/H800/A800在内,其DrMos计划全体由MPS(Monolithic Power Systems)供给,可能是基于“不把鸡蛋放在统一个篮子”的准则,在Blackwell架构芯片上,英伟达开端测试AOS的计划。那能否能阐明,AOS应当为B300芯片的过热成绩“背锅”呢?生怕并不克不及。起首,AOS的5*5 DrMos芯片是一款散热能效高,且非常成熟的计划计划,这外行业内曾经失掉普遍验证。其次,郭明錤的财报中也提到了,有工业链人士指出,B300的发烧成绩除了DrMos芯片自身之外,还源于体系芯片治理的计划缺乏。这曾经不是Blackwell第一次被曝出存在计划成绩。往年8月,据《The Information》报道,B200在台积电流片进程中,发明计划存在缺点。后来业内以为可能是台积电的N4P制程工艺存在成绩,但在与高盛的投资人相同会中,黄仁勋说出了成绩地点:因为GPU芯片、LSI桥、RDL中介层跟主板基板之间的热收缩特征不婚配,招致封装构造呈现曲折。“100%是英伟达的义务。”在芯片计划被曝有缺陷后,B200/GB200芯片的交付时光从往年3季度被推迟至4季度。并且从现实情形来看,现阶段仍不公司拿到B200芯片,从公然材料中得悉,马斯克凭仗10.8亿美元的订单,取得了B200芯片的优先交付权,这些芯片将被用于加强xAI的超等盘算集群Colossus。而即使是取得优先交付权xAI,也得比及来岁1月份才干收到B200芯片。回到B300芯片上,这是一枚原定在来岁3月GTC年夜会上宣布的旗舰产物,当初却面对“未宣布先难产”的成绩。完整把持AI效劳器芯片的英伟达,为什么会在Blackwell上频频翻车。一个很主要的起因是,英伟达过于寻求芯片机能上断代当先,从而招致Blackwell系列芯片作为量产型产物,多少乎酿成一个试验性平台。比方CoWoS-L封装技巧的利用。这里须要说一个配景是,Blackwell是一枚基于MCM(多芯片封装)计划的GPU,即在统一个芯片上集成两颗GPU die。为了共同英伟达的需要,台积电方面初次将CoWoS-L技巧利用在这枚芯片的封装上。而在此之前,CoWoS-L封装也不经由年夜范围验证。有业内子士指出,CoWoS-L封装现阶段的良率可能在90%阁下,作为一项后段工艺,这个数字很不睬想。需要能否过于悲观?在Blackwell架构芯片推出后,著名华尔街投行Keybanc Capital Markets曾收回了一份猜测:“Blackwell芯片将推进英伟达数据核心营业的收入,从2024财年(停止2024年1月)的475亿美元增加到2025年的2000多亿美元。”家喻户晓,在年夜模子的练习与安排中,英伟达的GPU居功至伟,但BlackWell架构芯片真的能凭一己之力动员事迹翻倍上涨吗?即使疏忽失落B200/B300的延期交付成绩,仅从市场需要来看,可能并不是特殊的悲观。对各年夜互联网公司来说,一个首当其冲的成绩是,假如年夜范围引入基于Blackwell芯片的效劳器,那么算力核心的建立本钱将会被年夜年夜进步。由于B200芯片高达1000W的TDP现实上已超越了传统风冷散热的极限,很多效劳器厂商为懂得决散热成绩,不得以堆砌3D VC(真空腔均热板)的数目跟面积,由此招致在42U的尺度效劳器机柜中,可包容的芯片越来越少。而到了B300芯片上,风冷散热计划无论怎样修修补补都无奈压住1400W的功耗,必需片面改用液冷。但对曾经搭建好盘算核心的厂商而言,改用液冷会招致其本钱骤增。比方在传统效劳器机房中在搭建时都市对空调体系停止重点计划,一些年夜型盘算核心的空调体系能够支撑0°以下的送风。假如改用液冷,则象征着在参加配套基本设备的同时,从前花年夜价格打造的空调体系沦为闲置。别的就是效劳器自身的价钱成绩。现阶段,一组基于GB200的AI效劳器依据带宽设置的差别,订价约在200-300万美元之间,而假如这些效劳器全体基于GB300改用液冷计划,价钱乃至可能会翻倍。另有一个很主要的成绩是,市场对开始进GPU的需要能否激烈?就在12月14日的NeurIPS年夜会上,OpenAI结合开创人Ilya Sutskever)表现,年夜模子预练习行将停止,由于AI的化石燃料“数据”曾经用尽了。假如Ilya的断定不成绩,一个不言而喻的改变将是年夜模子的研讨重心将从练习转向推理,在如许的配景下,固然英伟达Blackwell系列芯片具有强盛的“训推一体”才能,但有几多厂商将来乐意连续性地高本钱投入,另有待察看。义务编纂:若风文章内容告发 ]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->