DeepSeek的Nature论文表明R1训练只用了512张英伟达H800算力卡80小时,H800和4090是同内核,同级别的卡

用户头像
快兔充电
 · 上海  

那理论上来说,国内只要达到4090的算力水平的内核

或者比4090稍微差4060水平,配一个86g以上的大显存

就能用这个国产的卡来进行DeepSeek的训练

东芯砺算的7G100显卡正好比4060稍强

而且从指令集到内核都是完全独立自主的

4090相比H800差的地方就是

一个显存大小。

二是卡卡之间互联的通信能力,

这个都不是芯片内核自身的问题,都是外围的设计,

尤其是PCB板设计,

所以当下东芯砺算这颗7G100的GPU芯片内核配上86GB显存,

用比nvlink铜缆链接更先进的亨通光电卡卡光通信技术,

比肩甚至超越H800,我觉得问题不大

这意味着东芯砺算7G100这款GPU内核芯片在PCB板上配上大显存,

在卡卡互联技术上,用上光通讯技术,

就能替掉甚至超越4090以及H800,为DeepSeek进行人工智能训练

如果一旦可行,东芯股份市值追平寒武纪和海光,6000个亿,完全没有任何

下面是H800和4090的参数对比

从算力一个角度来看的话,4090比H800还要更强一点,尤其是对人工智能训练至关重要的fp16,fp8运算

怪不得国内算力中心的4090卡现在极端紧缺,都是满租状态,好用实用

好的,以下是英伟达H800和GeForce RTX 4090算力参数的纯文本对比分析:
核心算力参数对比分析
1. FP32(单精度浮点)性能
· RTX 4090:约 83 TFLOPS。这个数值非常高,是游戏、图形渲染和AI推理的主要性能指标,体现了其在消费级市场的极致定位。
· H800:约 67 TFLOPS(利用稀疏性技术后)。单从数值上看,低于RTX 4090。这表明H800的设计重心并不在于最大化单精度性能。
2. AI算力(TF32/FP16/INT8等)
· 理论峰值:在TF32、FP16、BF16、INT8等AI常用的精度上,由于RTX 4090的核心频率更高,其纸面理论峰值算力(例如FP16约2.6 PetaFLOPS)甚至略高于H800(约1.98 PetaFLOPS)。
· 显存:H800配备80GB的HBM3显存,带宽极高,能轻松容纳超大型模型。而RTX 4090的24GB GDDR6X显存在处理当今最先进的大模型时已捉襟见肘。
· 扩展性:这是决定性因素。H800通过NVLink技术实现每卡900GB/s的互联带宽,使上百张卡能像一台巨无霸一样高效协同工作。而多张RTX 4090只能通过PCIe 4.0(仅64GB/s带宽)连接,通信瓶颈极其严重,无法进行大规模扩展训练。因此,H800在实际AI集群中的有效算力远非单卡峰值所能体现。
4. 互联带宽
· H800:采用NVLink 4.0技术,提供高达900GB/s的互联带宽。这是其能够构建高效计算集群的“超级高速公路”。
· RTX 4090:不支持多卡NVLink互联,多卡间通信完全依赖PCIe 4.0 x16通道,双向带宽仅约64GB/s。这条“普通城市道路”无法满足大规模并行计算的数据交换需求。
总结 从算力参数来看,

RTX 4090在面向游戏和图形的单精度(FP32)和AI低精度理论峰值上占有优势。

$英伟达(NVDA)$

$东芯股份(SH688110)$

$寒武纪-U(SH688256)$