算力核心赛道 —— AIDC(2)

用户头像
巍卓铭诚
 · 甘肃  

AI要吃饭,吃的就是算力,而算力的背后,靠稳定、高效的电力撑着。

AIDC就是AI专属的数据中心,相当于AI时代的粮仓,而电气设备就是这个粮仓的输送管道和储备系统。电气设备跟不上,再强的GPU也发挥不了作用。

一、AIDC

1、为啥疯狂投钱

(1)AI市场

生成式AI出来后,全球AI市场规模涨得特别快。

根据IEA预测,2024年全球AI产业市场空间约234亿美元,到2032年能涨到2745亿美元,年均增速高达36%。

这么大的AI市场,得有足够的AIDC来支撑算力,不然大模型训练、AI推理都没法落地。

全球AI市场规模高速增长(2025-2032年为预测数据)

(2)云厂商和Colo

AI的主要使用者是云厂商,比如国内的阿里腾讯,海外的亚马逊微软,这些企业自然成了AIDC投资的主力军。

国内方面,阿里2024年资本开支同比涨了239%,还计划2025-2027年投3800亿建AI基础设施;

腾讯2024年资本开支也涨了221%,2025年还会保持双位数增长。

海外方面,亚马逊2025年计划投930亿美元建数据中心,微软投800亿,谷歌从750亿上调到850亿,全都瞄准AI和云基础设施。

除了云厂商,数据中心专业运营商(Colo)也在加码。

国内的世纪互联,2025年资本开支指引提到100-120亿元,截至2025年一季度,它在建和待建的基地型数据中心总容量超过1GW,专门给阿里腾讯这些头部企业提供算力服务。

(3)装机量要破百GW

AIDC的装机量就是它的电力承载能力,这个数字正在快速增长。

根据IEA数据,2025年全球数据中心总装机量有望达到114.3GW,比2023年的规模大幅提升。

而且未来增速也很可观:乐观情况下,2024-2030年每年增速能到21%;

就算是悲观情况,每年也能涨8%。这么快的装机速度,就是为了跟上AI算力的需求。

2、成本在哪里

(1)配电系统

根据施耐德电气的模型,一个5MW、单机柜功率20kW、2N配电冗余的AIDC。

总建造成本约16.4亿元,其中配电系统就占了5.9亿元,比例达36%,是花钱最多的部分。

而且配电系统里,UPS(不间断电源)的价值量最高,占比接近40%;

其次是柴发机组(24%)和开关柜(18%)。也就是说,建AIDC的核心投入,就是保障电力稳定的设备。

按类型划分数据中心建设开支;配电系统中UPS的价值量占比最高

(2)制冷和其他设备

除了配电系统,制冷系统也是重要开支,占比约26%。因为AIDC的设备功耗高,会产生大量热量,要是散热不及时,设备就会出问题。

剩下的钱会花在建筑成本、安装和项目管理等方面,但这些都属于辅助,核心还是围绕电力和散热。

3、功耗飙升

(1)GPU功耗

AI的算力主要靠GPU提供,而GPU的性能提升速度远超CPU。

根据英伟达的数据,GPU的运算性能每年能提升2倍,8年就能提升1000倍;

而CPU的性能每年只能提升1.1倍,差距特别大。性能提升的同时,功耗也跟着涨,GPU自然成了AIDC的用电大户。

(2)新一代GPU功耗

现在的GPU功耗已经到了恐怖的程度。上一代英伟达的H200算力板卡,功耗约1700W;

而新一代的B200板卡,功耗直接涨到3300W,接近翻倍。

单块GPU功耗都这么高,一个机柜里装多块GPU,整体功耗可想而知。

英伟达的NVL72机柜,装72颗GB200 GPU,功耗上百千瓦,传统数据中心的供电根本扛不住。

(3)供电系统升级

传统数据中心的供电设备,是按低功耗设计的,比如单机柜功率也就几kW到十几kW。

现在AIDC的机柜功率要到百kW甚至MW级别,传统设备的效率、功率密度都跟不上了。

传统UPS的效率最高也就95%,还需要大量空间;

要是用在高功耗机柜上,不仅浪费电,还占地方。这就逼着供电系统必须升级,从技术路线上找突破。

二、供电技术

四次迭代,每一代都更高效、更能扛、高功耗。

1、第一代UPS

UPS,不间断电源,是大家最熟悉的供电设备,现在大部分数据中心还在用电,但它的瓶颈已经很明显了。

(1)UPS是啥

简单说,UPS就是停电时能救急的设备,核心结构是整流器+逆变器+备电电池。

正常情况下,它把市电的交流电转换成直流电,再转换成设备能用的交流电,即逆变;

要是停电了,备电电池就会接入,通过逆变器继续供电,保证设备不会突然断电。

(2)UPS优势

UPS的最大优势就是成熟,国内渗透率能到85-90%,海外超过95%,不管是设备生产还是运维,都有完整的生态。

而且它的冗余设计,比如2N模式,两套设备备份很成熟,能保证供电稳定,适合功率密度不高的中小型数据中心。

(3)UPS问题

现在UPS的效率已经到顶了,用IGBT器件的UPS,最高效率约95%;就算用更先进的SiC器件,也只能到97.5%。

而且它需要两级电力转换,转换环节多,不仅耗电,还容易出故障。

另外UPS的占地面积大,一个2.2MW IT负载的UPS系统,需要310㎡的空间,建设周期还要12个月,对高功率密度的AIDC来说太不划算。

UPS、HVDC、巴拿马电源方案对比

2、第二代

(1)HVDC对比UPS

HVDC的核心优势是少了一次转换,它直接把市电转换成直流电,不需要再逆变回交流电,所以效率更高能到95%,比UPS省了不少电。

而且它是模块化结构,可靠性更高,建设成本也低:

同样2.2MW IT负载,HVDC的成本约2元/W,比UPS的3元/W便宜;占地面积300㎡,比UPS小;建设周期6个月,也更快。

(2)国内厂商

国内是HVDC的先行区,阿里牵头中恒电气、台达开发了巴拿马电源(一种集成化HVDC),先在自己的AIDC里用;

科华数据盛弘股份也跟着布局HVDC产品,腾讯、字节这些云厂商已经开始采购。

而且HVDC的技术和直流充电桩同源,国内厂商有技术基础,推进速度比海外快。

(3)HVDC局限

240V/336V的电压还是太低了,要是机柜功率到百kW级别,电流会很大,需要更粗的电缆,不仅费铜,还会产生更多热量。

而且它的配套设备还不完善,比如适合这个电压的断路器、继电器不多,运维经验也比UPS少,暂时没法满足MW级机柜的需求。

3、第三代

800V HVDC是英伟达谷歌提出来的,专门针对百kW-MW级的高功率机柜。

(1)800V?

800V的核心优势是传输功率大,损耗小,在相同的电缆尺寸下,800V系统能比240V多传输85%的功率,而且电流小,没有交流的集肤效应,即电流集中在导线表面,浪费导线,热损耗也少。

比如一个1MW的机柜,用800V供电,电流只有1250A;用240V的话,电流要4167A,电缆粗细差很多,成本和损耗天差地别。

(2)海外的进展

海外厂商已经开始布局800V HVDC:维谛技术计划2026年下半年推出800V DC电源产品,禾望电气良信股份可能成为它的合作伙伴;

谷歌在2024年OCP大会上提出了±400V的供电架构,适合未来的AIDC;

台达在2025年COMPUTEX展上,展出了800V高压直流架构,还推出了180kW的机架式电源,效率高达98%。

(3)800V问题

800V HVDC现在最大的问题是生态没起来。800V的服务器电源、断路器、继电器这些配套设备还很少,没有大规模量产;

而且运维人员没接触过这么高的直流电压,缺乏管理经验,可靠性还需要验证。

4、第四代

(1)SST

传统变压器是用铁芯和线圈做的,体积大、效率低;而SST是用半导体器件比如IGBT、SiC做的,相当于电力电子变压器。

它的优势特别多:效率高,整机效率超98%;

体积小,比传统变压器小一半以上;

能直接接绿电光伏、风电);

能快速调节电压,适应负载波动。

建设周期短,传统变压器要几个月,SST几周就能装好。

(2)国内案例

国内在SST领域走在前面:2023年,中国西电的SST首次应用在东数西算项目里,推出了10kV AC/800V DC/2MVA的固态变压器;

白云电气集团旗下的西安为光能源,把量产版SST用在了江苏苏州昆山的直流充电站;

四方股份国电南瑞也有SST的示范应用和产品储备。

而且用SiC器件的SST,效率能到98.5%,功率密度更高。

(3)啥时候能普及?

SST现在的价格已经接近UPS和HVDC了。硅基SST约1元/W,和传统变压器+设备的0.8元/W差不多,而且功能性更强。

未来半导体器件成本下降、绿电接入需求增加、AIDC规模往GW级扩张,SST会慢慢替代传统变压器和HVDC,成为主流供电架构。

数据中心SST 800V 2N供电架构

三、服务器电源

AIDC的大电网,服务器电源就是最后的电力转换器。

把机房的高压电,变成GPU能直接用的低压电。

1、电源标准

(1)作用

简单说,服务器电源就是电压转换器。AIDC机房里的电是400V交流电,而服务器里的CPU、GPU需要12V甚至0.8V的直流电,这就需要服务器电源来转换:

先把400V AC转换成48V DC(第一级),再转换成12V DC(第二级),最后降到0.8-1V给GPU用。

要是转换效率低,不仅浪费电,还会产生热量,影响GPU性能。

(2)标准:OCP ORV3

现在主流的服务器电源都遵循OCP ORV3标准,这个标准规定了电源的尺寸:

宽度73.5mm、高度40mm,长度最长700mm,像一把标准尺寸的长剑。

统一标准是为了方便安装,不管是台达、光宝还是麦格米特的电源,都能装在同一个机柜里,不用改尺寸。

(3)电源空间紧张

AI服务器需要的电源空间越来越大。比如英伟达的NVL72机柜,要装72颗GB200 GPU,专门留了8U的空间给电源模组,占了机柜总高度的近20%。

要是电源功率密度不提升,未来装更多GPU的话,电源可能会占满机柜,根本没地方放其他设备,所以提升电源功率密度是必须的。

2、功率、密度越来越高

(1)5.5kW电源

现在5.5kW的服务器电源已经随英伟达GB200的出货开始量产了。GB200的单卡功耗约2700W,一个8卡服务器的功耗约22kW,需要4个5.5kW的电源才能满足。

国内的麦格米特已经具备5.5kW电源的量产能力,能给英伟达供货;欧陆通的5.5kW电源也通过了大厂认证,开始小批量出货。

(2)8-12kW电源

下一代GPU如英伟达的Rubin、GB300的功耗会更高,单卡可能到3000W以上,8卡服务器功耗会到24kW,需要8kW甚至12kW的电源。

现在头部电源厂商已经在研发了:英飞凌公布的AC-DC路线图里,2026年起8kW以上的服务器电源会趋于成熟;

纳微半导体已经推出了12kW电源的demo,效率高达97.8%,能支持300kW以上的AI机柜。

3、市场格局

(1)台达、光宝

全球开关电源市场里,台达的市占率最高,达17%;光宝排第二,约4%;群光、明纬也各占3%左右。

服务器电源是开关电源的细分领域,格局差不多。台达的服务器电源市占率超50%,光宝紧随其后,这两家几乎垄断了海外云厂商的订单。

亚马逊微软谷歌的服务器电源,大部分都是台达和光宝供应的。

(2)大陆企业

大陆企业里,麦格米特是第一个突破的,它已经打入英伟达的供应链,5.5kW电源能给GB200配套,2025年下半年开始批量出货。

欧陆通也不甘落后,它的5.5kW电源通过了浪潮、富士康、华勤这些国内服务器厂商的认证,随着国内AIDC建设推进,订单会慢慢多起来。

其他企业比如全汉、航嘉,也在研发高功率服务器电源,但还没大规模量产。

英伟达MGX生态的合作供应商

(3)客户认证

服务器电源不是随便就能卖的,必须通过终端客户的认证。比如给英伟达供货,要过英伟达的MGX生态认证;给亚马逊供货,要过亚马逊的硬件测试。

认证过程很严格,不仅看效率、可靠性,还看兼容性。

电源要和GPU、服务器主板完美配合,不能出故障。而且认证周期长,一般要6-12个月,新企业很难快速进入。

4、技术升级

提升服务器电源的功率密度和效率,就得用更好的半导体器件。

SiC(碳化硅)和GaN(氮化镓),它们比传统的硅器件强太多。

(1)SiC和GaN

SiC和GaN属于第三代半导体,物理特性比硅好很多:

SiC的击穿场强是硅的9倍,能承受更高的电压;热导率是硅的3.7倍,散热更快;GaN的开关速度是硅的10倍,没有反向恢复损耗。

用它们做电源,效率能提升2-3个百分点,体积能缩小30%以上,还能承受更高的温度,适合高功率密度的场景。

(2)上游厂商

现在上游半导体厂商已经开始研发适合服务器电源的SiC和GaN器件:

纳微半导体英伟达合作,开发800V HVDC架构下的GaN器件,推出了80-120V的中压GaN功率芯片,专门优化AI数据中心电源;

罗姆是英伟达800V HVDC架构的主要硅供应商,也有SiC和GaN产品;

英飞凌和英伟达合作开发下一代电源系统,能提供硅、SiC、GaN三种器件,满足不同功率需求。

(3)成本、可靠性

SiC和GaN现在最大的问题是贵,SiC器件的价格是硅器件的3-5倍,GaN的是2-3倍,虽然能省电费,但初期投入高,很多厂商还在观望。

而且它们的可靠性还需要验证:服务器电源要连续工作5-10年,SiC和GaN在长期高温、高电压下的稳定性,还需要更多实际案例来证明。

不过随着量产规模扩大,成本会慢慢降下来,未来3-5年,SiC和GaN在服务器电源里的渗透率会快速提升。

四、增量需求

1、BBU

BBU后备电池系统就是装在IT机柜里的小充电宝,停电时能救急。

(1)对比传统备电

传统数据中心的备电用的是集中式铅酸电池,把一大组铅酸电池放在专门的房间里,通过电缆给机柜供电。

这种方式有很多缺点:占地大、效率低、寿命短、维护麻烦。

BBU是分布式备电,直接装在IT机柜里,由锂电池组成,容量不大但响应快。

停电时,它能在毫秒级内给服务器供电,保证数据不丢失,还能让服务器安全关机,或者把任务转移到其他机柜。

而且锂电池的寿命是铅酸电池的2-3倍,体积小,不用专门的房间,维护也简单。

(2)BBU要成标配

以前BBU是选配,比如GB200机柜里,只有部分客户会装;但到了GB300和Rubin机柜,BBU会变成标配。

因为高功率机柜的负载更敏感,一旦停电,GPU里的训练数据要是丢失,损失会很大。一个大模型训练了几天,停电后要重新开始,浪费大量时间和电费。

现在海外云厂商已经开始批量用BBU了:光宝在2025年二季度开始大规模出货BBU,亚马逊、微软的新机柜都在选配;国内的腾讯、字节也在测试。

2、超级电容

超级电容不像BBU那样能长时间供电,它的作用是应对GPU的瞬时功率波动。

(1)电容作用

AI服务器的GPU负载不是稳定的,而是脉冲式的。训练大模型时,某一瞬间的功率可能比平均功率高50%以上,这种尖峰负载会让供电电压波动。

要是电压波动太大,GPU的性能会下降20-30%,甚至会触发保护机制,让服务器停机。

超级电容的响应速度特别快,能在毫秒级内释放电力,补上尖峰负载的缺口,平抑电压波动。

而且它的充放电寿命长,能循环十万次以上,比锂电池的几千次多太多,不用频繁更换。

一个40kW的机柜,装一组超级电容,就能应对50kW的尖峰负载,保证GPU正常工作。

AI负载波动会引起功率的大幅波动

(2)技术趋势

超级电容的技术也在升级,主要有两个方向:一是功率提升,以前的超级电容功率约20kW,现在往40kW、60kW升级,武藏已经推出了40kW的产品,计划2028年推出60kW的;

二是集成化,把超级电容和电源模块、BBU装在一起,组成电源柜,台达的新款电源柜,就集成了超级电容和BBU,占地方更小,管理更方便。

另外,超级电容的技术路线也有两种:EDLC双电层电容器和HIB混合离子电容器。

EDLC的寿命更长,但功率密度低;HIB的功率密度高,但寿命短。现在主流还是EDLC,适合AIDC的长期稳定运行。

五、其他关键设备

AIDC的电力系统里,有两个不起眼但很重要的部分:电能质量设备、配电元器件。

1、APF

APF有源电力滤波器是专门解决AIDC的电能质量问题,避免设备出故障。

(1)AIDC有哪些电能质量问题

AIDC里的设备大多是非线性负载,比如UPS、服务器电源、变频器,这些设备工作时会向电网注入谐波,相当于电流里的杂音。

谐波多了会有很多麻烦:一是增加线路损耗,浪费电;二是让变压器、电缆发热,缩短寿命;三是干扰其他设备,比如让服务器蓝屏、数据丢失;四是可能触发电网保护,导致停电。

除了谐波,AIDC还有无功功率不足、三相不平衡的问题。无功功率不足会让电压下降,设备没法满负荷工作;三相不平衡会让某一相的电流过大,烧毁电缆。这些问题要是不解决,AIDC的可靠性会大打折扣。

(2)APF

APF的作用就是消除谐波,补偿无功功率。它能实时检测电网里的谐波电流,然后产生一个相反的电流,抵消谐波;

同时还能补偿无功功率,稳定电压,平衡三相电流。比如一个5MW的AIDC,装APF后,谐波能从20%降到5%以下,线路损耗能减少15%以上。

现在APF也在升级,主要是用SiC器件。盛弘股份已经推出了基于SiC的APF产品,体积比传统APF小40%,效率提升3个百分点,能处理更大的电流。

而且未来APF会和BBU、超级电容集成,组成电能质量管理柜,同时解决波动和谐波问题,配置比例也会从现在的15%提升到2030年的30%。

北美数据中心聚集地电力畸变十分严重

2、配电元器件

(1)继电器

继电器相当于电力开关,控制电路的通断,在服务器电源、开关柜、PDU里都要用。

AIDC里的继电器分两种:低压继电器(12V、24V)和高压直流继电器(240V、800V)。

以前低压继电器用得多,但随着HVDC普及,高压直流继电器的需求会增加。

它的价值量是低压继电器的5-10倍,一个低压继电器约10元,高压直流继电器要50-100元。

(2)断路器

断路器是过载保护器,电流超过设定值时,会自动跳闸,切断电路。AIDC里的断路器也在升级:

以前用交流断路器,现在往直流断路器升级,因为HVDC是直流供电,交流断路器没法用。

直流断路器的价值量是交流断路器的2-3倍,一个交流断路器约50元,直流断路器要100-150元。

未来还要往固态直流断路器升级,它用半导体器件做的,响应速度比传统机械断路器快100倍,没有电弧,机械断路器跳闸时会产生电弧,可能烧毁设备,寿命也长。

(3)熔断器

熔断器就是保险丝,电流过大时,里面的金属丝会熔断,切断电路,保护设备。

AIDC里的熔断器用在UPS、HVDC、列头柜、BBU里,需要承受高电流、高温度,技术门槛不低。

国内做熔断器的龙头是中熔电气,它的电子类熔断器已经供应IDC领域,2024年IDC相关收入占比是个位数,但随着HVDC普及,占比会快速提升。