
最昂贵的1毫秒,能值多少钱?
想象一下,一个投入上亿元的AI大模型已经持续训练多周,上万张GPU正在全速运转。
突然,掉电了。
就在那1毫秒,GPU算到一半的梯度数据没保存,使得整轮训练进程失败,上亿元的训练成本直接打水漂。要是再加上重启的算力、时间成本,损失可想而知。
而且,AI服务器对供电中断的容忍度也非常低,GPU留给电源模块的生死窗口只在几毫秒之间,可传统不间断电源UPS的切换需要十几毫秒,备用柴油发电机的启动更是以分钟计。
这个时间差,或许就足以让整个算力集群陷入瘫痪。
那么,究竟有没有东西,谁能堵上这1毫秒的黑洞?
有,BBU(电池备份单元)就可以。
具体来说,BBU可以看成一块焊在服务器电源板旁边的微型电站,集成了电池组、控制电路等,紧贴着GPU服务器放置。
在市电正常的时候,BBU是待命状态,像不存在;但只要检测到电压异常跌落,BBU就能在微秒之间瞬间接管供电,从电池里取电出来继续维持背板