Scale-up直接影响模型训练时间和整体性能我们当然希望扩大完全非阻塞全互联域的domain规模(共享算力池和内存池)系统的复杂性是由GPU数量,扩展带宽(scale-up BW)跟交换机端口数(degree)所决定的但是扩张的规模仍然受到数据中心条件的限制,包括供电与散热所限制的边界,机柜与机械结构约束,以及软件栈在大规模集群上保持可扩展性的能力