一、AIDC
生成式AI出来后,全球AI市场规模涨得特别快。
根据IEA预测,2024年全球AI产业市场空间约234亿美元,到2032年能涨到2745亿美元,年均增速高达36%。
这么大的AI市场,得有足够的AIDC来支撑算力,不然大模型训练、AI推理都没法落地。
AI的主要使用者是云厂商,比如国内的阿里、腾讯,海外的亚马逊、微软,这些企业自然成了AIDC投资的主力军。
国内方面,阿里2024年资本开支同比涨了239%,还计划2025-2027年投3800亿建AI基础设施;
腾讯2024年资本开支也涨了221%,2025年还会保持双位数增长。
海外方面,亚马逊2025年计划投930亿美元建数据中心,微软投800亿,谷歌从750亿上调到850亿,全都瞄准AI和云基础设施。
除了云厂商,数据中心专业运营商(Colo)也在加码。
国内的世纪互联,2025年资本开支指引提到100-120亿元,截至2025年一季度,它在建和待建的基地型数据中心总容量超过1GW,专门给阿里、腾讯这些头部企业提供算力服务。
AIDC的装机量就是它的电力承载能力,这个数字正在快速增长。
根据IEA数据,2025年全球数据中心总装机量有望达到114.3GW,比2023年的规模大幅提升。
而且未来增速也很可观:乐观情况下,2024-2030年每年增速能到21%;
就算是悲观情况,每年也能涨8%。这么快的装机速度,就是为了跟上AI算力的需求。
根据施耐德电气的模型,一个5MW、单机柜功率20kW、2N配电冗余的AIDC。
总建造成本约16.4亿元,其中配电系统就占了5.9亿元,比例达36%,是花钱最多的部分。
而且配电系统里,UPS(不间断电源)的价值量最高,占比接近40%;
其次是柴发机组(24%)和开关柜(18%)。也就是说,建AIDC的核心投入,就是保障电力稳定的设备。
按类型划分数据中心建设开支;配电系统中UPS的价值量占比最高
除了配电系统,制冷系统也是重要开支,占比约26%。因为AIDC的设备功耗高,会产生大量热量,要是散热不及时,设备就会出问题。
剩下的钱会花在建筑成本、安装和项目管理等方面,但这些都属于辅助,核心还是围绕电力和散热。
AI的算力主要靠GPU提供,而GPU的性能提升速度远超CPU。
根据英伟达的数据,GPU的运算性能每年能提升2倍,8年就能提升1000倍;
而CPU的性能每年只能提升1.1倍,差距特别大。性能提升的同时,功耗也跟着涨,GPU自然成了AIDC的用电大户。
现在的GPU功耗已经到了恐怖的程度。上一代英伟达的H200算力板卡,功耗约1700W;
而新一代的B200板卡,功耗直接涨到3300W,接近翻倍。
单块GPU功耗都这么高,一个机柜里装多块GPU,整体功耗可想而知。
英伟达的NVL72机柜,装72颗GB200 GPU,功耗上百千瓦,传统数据中心的供电根本扛不住。
传统数据中心的供电设备,是按低功耗设计的,比如单机柜功率也就几kW到十几kW。
现在AIDC的机柜功率要到百kW甚至MW级别,传统设备的效率、功率密度都跟不上了。
传统UPS的效率最高也就95%,还需要大量空间;
要是用在高功耗机柜上,不仅浪费电,还占地方。这就逼着供电系统必须升级,从技术路线上找突破。
四次迭代,每一代都更高效、更能扛、高功耗。
UPS,不间断电源,是大家最熟悉的供电设备,现在大部分数据中心还在用电,但它的瓶颈已经很明显了。
简单说,UPS就是停电时能救急的设备,核心结构是整流器+逆变器+备电电池。
正常情况下,它把市电的交流电转换成直流电,再转换成设备能用的交流电,即逆变;
要是停电了,备电电池就会接入,通过逆变器继续供电,保证设备不会突然断电。
UPS的最大优势就是成熟,国内渗透率能到85-90%,海外超过95%,不管是设备生产还是运维,都有完整的生态。
而且它的冗余设计,比如2N模式,两套设备备份很成熟,能保证供电稳定,适合功率密度不高的中小型数据中心。
现在UPS的效率已经到顶了,用IGBT器件的UPS,最高效率约95%;就算用更先进的SiC器件,也只能到97.5%。
而且它需要两级电力转换,转换环节多,不仅耗电,还容易出故障。
另外UPS的占地面积大,一个2.2MW IT负载的UPS系统,需要310㎡的空间,建设周期还要12个月,对高功率密度的AIDC来说太不划算。
HVDC的核心优势是少了一次转换,它直接把市电转换成直流电,不需要再逆变回交流电,所以效率更高能到95%,比UPS省了不少电。
而且它是模块化结构,可靠性更高,建设成本也低:
同样2.2MW IT负载,HVDC的成本约2元/W,比UPS的3元/W便宜;占地面积300㎡,比UPS小;建设周期6个月,也更快。
国内是HVDC的先行区,阿里牵头中恒电气、台达开发了巴拿马电源(一种集成化HVDC),先在自己的AIDC里用;
科华数据、盛弘股份也跟着布局HVDC产品,腾讯、字节这些云厂商已经开始采购。
而且HVDC的技术和直流充电桩同源,国内厂商有技术基础,推进速度比海外快。
240V/336V的电压还是太低了,要是机柜功率到百kW级别,电流会很大,需要更粗的电缆,不仅费铜,还会产生更多热量。
而且它的配套设备还不完善,比如适合这个电压的断路器、继电器不多,运维经验也比UPS少,暂时没法满足MW级机柜的需求。
800V HVDC是英伟达、谷歌提出来的,专门针对百kW-MW级的高功率机柜。
800V的核心优势是传输功率大,损耗小,在相同的电缆尺寸下,800V系统能比240V多传输85%的功率,而且电流小,没有交流的集肤效应,即电流集中在导线表面,浪费导线,热损耗也少。
比如一个1MW的机柜,用800V供电,电流只有1250A;用240V的话,电流要4167A,电缆粗细差很多,成本和损耗天差地别。
海外厂商已经开始布局800V HVDC:维谛技术计划2026年下半年推出800V DC电源产品,禾望电气、良信股份可能成为它的合作伙伴;
谷歌在2024年OCP大会上提出了±400V的供电架构,适合未来的AIDC;
台达在2025年COMPUTEX展上,展出了800V高压直流架构,还推出了180kW的机架式电源,效率高达98%。
800V HVDC现在最大的问题是生态没起来。800V的服务器电源、断路器、继电器这些配套设备还很少,没有大规模量产;
而且运维人员没接触过这么高的直流电压,缺乏管理经验,可靠性还需要验证。
传统变压器是用铁芯和线圈做的,体积大、效率低;而SST是用半导体器件比如IGBT、SiC做的,相当于电力电子变压器。
它的优势特别多:效率高,整机效率超98%;
体积小,比传统变压器小一半以上;
能直接接绿电光伏、风电);
能快速调节电压,适应负载波动。
建设周期短,传统变压器要几个月,SST几周就能装好。
国内在SST领域走在前面:2023年,中国西电的SST首次应用在东数西算项目里,推出了10kV AC/800V DC/2MVA的固态变压器;
白云电气集团旗下的西安为光能源,把量产版SST用在了江苏苏州昆山的直流充电站;
而且用SiC器件的SST,效率能到98.5%,功率密度更高。
SST现在的价格已经接近UPS和HVDC了。硅基SST约1元/W,和传统变压器+设备的0.8元/W差不多,而且功能性更强。
未来半导体器件成本下降、绿电接入需求增加、AIDC规模往GW级扩张,SST会慢慢替代传统变压器和HVDC,成为主流供电架构。
数据中心SST 800V 2N供电架构
AIDC的大电网,服务器电源就是最后的电力转换器。
把机房的高压电,变成GPU能直接用的低压电。
简单说,服务器电源就是电压转换器。AIDC机房里的电是400V交流电,而服务器里的CPU、GPU需要12V甚至0.8V的直流电,这就需要服务器电源来转换:
先把400V AC转换成48V DC(第一级),再转换成12V DC(第二级),最后降到0.8-1V给GPU用。
要是转换效率低,不仅浪费电,还会产生热量,影响GPU性能。
现在主流的服务器电源都遵循OCP ORV3标准,这个标准规定了电源的尺寸:
宽度73.5mm、高度40mm,长度最长700mm,像一把标准尺寸的长剑。
统一标准是为了方便安装,不管是台达、光宝还是麦格米特的电源,都能装在同一个机柜里,不用改尺寸。
AI服务器需要的电源空间越来越大。比如英伟达的NVL72机柜,要装72颗GB200 GPU,专门留了8U的空间给电源模组,占了机柜总高度的近20%。
要是电源功率密度不提升,未来装更多GPU的话,电源可能会占满机柜,根本没地方放其他设备,所以提升电源功率密度是必须的。
现在5.5kW的服务器电源已经随英伟达GB200的出货开始量产了。GB200的单卡功耗约2700W,一个8卡服务器的功耗约22kW,需要4个5.5kW的电源才能满足。
国内的麦格米特已经具备5.5kW电源的量产能力,能给英伟达供货;欧陆通的5.5kW电源也通过了大厂认证,开始小批量出货。
下一代GPU如英伟达的Rubin、GB300的功耗会更高,单卡可能到3000W以上,8卡服务器功耗会到24kW,需要8kW甚至12kW的电源。
现在头部电源厂商已经在研发了:英飞凌公布的AC-DC路线图里,2026年起8kW以上的服务器电源会趋于成熟;
纳微半导体已经推出了12kW电源的demo,效率高达97.8%,能支持300kW以上的AI机柜。
全球开关电源市场里,台达的市占率最高,达17%;光宝排第二,约4%;群光、明纬也各占3%左右。
服务器电源是开关电源的细分领域,格局差不多。台达的服务器电源市占率超50%,光宝紧随其后,这两家几乎垄断了海外云厂商的订单。
亚马逊、微软、谷歌的服务器电源,大部分都是台达和光宝供应的。
大陆企业里,麦格米特是第一个突破的,它已经打入英伟达的供应链,5.5kW电源能给GB200配套,2025年下半年开始批量出货。
欧陆通也不甘落后,它的5.5kW电源通过了浪潮、富士康、华勤这些国内服务器厂商的认证,随着国内AIDC建设推进,订单会慢慢多起来。
其他企业比如全汉、航嘉,也在研发高功率服务器电源,但还没大规模量产。
服务器电源不是随便就能卖的,必须通过终端客户的认证。比如给英伟达供货,要过英伟达的MGX生态认证;给亚马逊供货,要过亚马逊的硬件测试。
认证过程很严格,不仅看效率、可靠性,还看兼容性。
电源要和GPU、服务器主板完美配合,不能出故障。而且认证周期长,一般要6-12个月,新企业很难快速进入。
提升服务器电源的功率密度和效率,就得用更好的半导体器件。
SiC(碳化硅)和GaN(氮化镓),它们比传统的硅器件强太多。
SiC和GaN属于第三代半导体,物理特性比硅好很多:
SiC的击穿场强是硅的9倍,能承受更高的电压;热导率是硅的3.7倍,散热更快;GaN的开关速度是硅的10倍,没有反向恢复损耗。
用它们做电源,效率能提升2-3个百分点,体积能缩小30%以上,还能承受更高的温度,适合高功率密度的场景。
现在上游半导体厂商已经开始研发适合服务器电源的SiC和GaN器件:
纳微半导体和英伟达合作,开发800V HVDC架构下的GaN器件,推出了80-120V的中压GaN功率芯片,专门优化AI数据中心电源;
罗姆是英伟达800V HVDC架构的主要硅供应商,也有SiC和GaN产品;
英飞凌和英伟达合作开发下一代电源系统,能提供硅、SiC、GaN三种器件,满足不同功率需求。
SiC和GaN现在最大的问题是贵,SiC器件的价格是硅器件的3-5倍,GaN的是2-3倍,虽然能省电费,但初期投入高,很多厂商还在观望。
而且它们的可靠性还需要验证:服务器电源要连续工作5-10年,SiC和GaN在长期高温、高电压下的稳定性,还需要更多实际案例来证明。
不过随着量产规模扩大,成本会慢慢降下来,未来3-5年,SiC和GaN在服务器电源里的渗透率会快速提升。
BBU后备电池系统就是装在IT机柜里的小充电宝,停电时能救急。
传统数据中心的备电用的是集中式铅酸电池,把一大组铅酸电池放在专门的房间里,通过电缆给机柜供电。
这种方式有很多缺点:占地大、效率低、寿命短、维护麻烦。
BBU是分布式备电,直接装在IT机柜里,由锂电池组成,容量不大但响应快。
停电时,它能在毫秒级内给服务器供电,保证数据不丢失,还能让服务器安全关机,或者把任务转移到其他机柜。
而且锂电池的寿命是铅酸电池的2-3倍,体积小,不用专门的房间,维护也简单。
以前BBU是选配,比如GB200机柜里,只有部分客户会装;但到了GB300和Rubin机柜,BBU会变成标配。
因为高功率机柜的负载更敏感,一旦停电,GPU里的训练数据要是丢失,损失会很大。一个大模型训练了几天,停电后要重新开始,浪费大量时间和电费。
现在海外云厂商已经开始批量用BBU了:光宝在2025年二季度开始大规模出货BBU,亚马逊、微软的新机柜都在选配;国内的腾讯、字节也在测试。
超级电容不像BBU那样能长时间供电,它的作用是应对GPU的瞬时功率波动。
AI服务器的GPU负载不是稳定的,而是脉冲式的。训练大模型时,某一瞬间的功率可能比平均功率高50%以上,这种尖峰负载会让供电电压波动。
要是电压波动太大,GPU的性能会下降20-30%,甚至会触发保护机制,让服务器停机。
超级电容的响应速度特别快,能在毫秒级内释放电力,补上尖峰负载的缺口,平抑电压波动。
而且它的充放电寿命长,能循环十万次以上,比锂电池的几千次多太多,不用频繁更换。
一个40kW的机柜,装一组超级电容,就能应对50kW的尖峰负载,保证GPU正常工作。
超级电容的技术也在升级,主要有两个方向:一是功率提升,以前的超级电容功率约20kW,现在往40kW、60kW升级,武藏已经推出了40kW的产品,计划2028年推出60kW的;
二是集成化,把超级电容和电源模块、BBU装在一起,组成电源柜,台达的新款电源柜,就集成了超级电容和BBU,占地方更小,管理更方便。
另外,超级电容的技术路线也有两种:EDLC双电层电容器和HIB混合离子电容器。
EDLC的寿命更长,但功率密度低;HIB的功率密度高,但寿命短。现在主流还是EDLC,适合AIDC的长期稳定运行。
AIDC的电力系统里,有两个不起眼但很重要的部分:电能质量设备、配电元器件。
APF有源电力滤波器是专门解决AIDC的电能质量问题,避免设备出故障。
AIDC里的设备大多是非线性负载,比如UPS、服务器电源、变频器,这些设备工作时会向电网注入谐波,相当于电流里的杂音。
谐波多了会有很多麻烦:一是增加线路损耗,浪费电;二是让变压器、电缆发热,缩短寿命;三是干扰其他设备,比如让服务器蓝屏、数据丢失;四是可能触发电网保护,导致停电。
除了谐波,AIDC还有无功功率不足、三相不平衡的问题。无功功率不足会让电压下降,设备没法满负荷工作;三相不平衡会让某一相的电流过大,烧毁电缆。这些问题要是不解决,AIDC的可靠性会大打折扣。
APF的作用就是消除谐波,补偿无功功率。它能实时检测电网里的谐波电流,然后产生一个相反的电流,抵消谐波;
同时还能补偿无功功率,稳定电压,平衡三相电流。比如一个5MW的AIDC,装APF后,谐波能从20%降到5%以下,线路损耗能减少15%以上。
现在APF也在升级,主要是用SiC器件。盛弘股份已经推出了基于SiC的APF产品,体积比传统APF小40%,效率提升3个百分点,能处理更大的电流。
而且未来APF会和BBU、超级电容集成,组成电能质量管理柜,同时解决波动和谐波问题,配置比例也会从现在的15%提升到2030年的30%。
北美数据中心聚集地电力畸变十分严重
继电器相当于电力开关,控制电路的通断,在服务器电源、开关柜、PDU里都要用。
AIDC里的继电器分两种:低压继电器(12V、24V)和高压直流继电器(240V、800V)。
以前低压继电器用得多,但随着HVDC普及,高压直流继电器的需求会增加。
它的价值量是低压继电器的5-10倍,一个低压继电器约10元,高压直流继电器要50-100元。
断路器是过载保护器,电流超过设定值时,会自动跳闸,切断电路。AIDC里的断路器也在升级:
以前用交流断路器,现在往直流断路器升级,因为HVDC是直流供电,交流断路器没法用。
直流断路器的价值量是交流断路器的2-3倍,一个交流断路器约50元,直流断路器要100-150元。
未来还要往固态直流断路器升级,它用半导体器件做的,响应速度比传统机械断路器快100倍,没有电弧,机械断路器跳闸时会产生电弧,可能烧毁设备,寿命也长。
熔断器就是保险丝,电流过大时,里面的金属丝会熔断,切断电路,保护设备。
AIDC里的熔断器用在UPS、HVDC、列头柜、BBU里,需要承受高电流、高温度,技术门槛不低。
国内做熔断器的龙头是中熔电气,它的电子类熔断器已经供应IDC领域,2024年IDC相关收入占比是个位数,但随着HVDC普及,占比会快速提升。