RTX 4090 相比于 3090ti 和 3090, 在深度学习性能上提升了多少?
15 个回答
lambda 前阵出了一个 benchmark,可以一起来看下:
还有对应repo:
注意:结论来源于 lambda 博文,笔者只是搬运,并非笔者测试
结论:
相比 RTX3090:
- RTX4090 训练速度更快 , 并更具性价比 (吞吐量/美元) (测试用例包含 视觉、语言、语音和推荐系统)
- RTX4090 的 电力成本 (吞吐量/Watt)与RTX3090 相当 ,尽管它有着450W的功耗。
- 多 GPU 分布式性能更好
Pytorch 训练吞吐量测试
GPU/Model | ResNet50 | SSD | Bert Base Finetune | TransformerXL Large | Tacotron2 | NCF |
GeForce RTX 3090 TF32 | 144 | 513 | 85 | 12101 | 25350 | 14714953 |
GeForce RTX 3090 FP16 | 236 | 905 | 172 | 22863 | 25018 | 25118176 |
GeForce RTX 4090 TF32 | 224 | 721 | 137 | 22750 | 32910 | 17476573 |
GeForce RTX 4090 FP16 | 379 | 1301 | 297 | 40427 | 32661 | 32192491 |
RTX 4090的训练吞吐量明显更高。对于不同的模型的TF32训练吞吐量比RTX 3090高1.3倍至1.9倍,FP16训练吞吐量比RTX 3090高1.3倍至1.8倍。
吞吐量/价格
RTX 3090和RTX 4090的参考价格分别为1400美元和1599美元。RTX 4090的性价比很高,其 吞吐量/价格 在不同模型上 与RTX 3090相比 在1.2倍至1.6倍之间。
电力成本
RTX 4090的 训练吞吐量/瓦特 与RTX 3090相当,在RTX 3090的0.92倍到1.5倍之间。
多 GPU 分布式
单 4090 对比 双 4090
大多数模型在使用两个GPU的情况下获得接近2倍的训练吞吐量;
微调BERT_base的吞吐量增倍小于1.7倍;
在所有测试的GPU中,Tacotron2 FP16并不比TF32快。这与NVIDIA的Tacotron2基准测试的报告一致。
双 4090 对比 双 3090 带 NVlink
这里也给出了一些很专业的测试: