来源：微信公众号「17change」
原文链接：https://mp.weixin.qq.com/s/eYc35_LODmKdGfIPImg7Jg
整理：红龙 🐉

显卡算力排名：企业级AI芯片 vs 消费级显卡完全对比

显卡的"算力"通常分为 单精度浮点算力（FP32） 和 AI张量算力（FP16/INT8等）。

专业 AI 与数据中心显卡算力排名（企业级）

这类显卡是目前地球上算力最强的芯片，虽然部分单精度（FP32）数据看起来不如顶配游戏卡，但它们拥有恐怖的 HBM高带宽显存 和专为AI设计的 矩阵运算算力（如FP8/FP16）。

这是普通消费者、研究人员或小型工作室最常购买的显卡。排名主要以 FP32（单精度浮点） 为基准。

AI不是只看FP32：深度学习主要使用 FP16（半精度）甚至 FP8/INT8 进行计算。H100 拥有专为 AI 设计的庞大张量核心（Tensor Core），其 AI 算力是 4090 的数倍。
显存带宽差异：H100 使用的是服务器级的 HBM3 显存，带宽高达 3.35 TB/s；而 4090 使用的是 GDDR6X，带宽仅 1.0 TB/s。大模型数据吞吐量极大，4090 会卡在内存带宽上。
互联技术：H100 支持 NVLink 互联，可以将几十甚至成千上万张卡连在一起当一张卡用（算力无损叠加），而消费级显卡已基本砍掉此功能。

首选 NVIDIA：因为 CUDA 生态目前在深度学习领域拥有绝对垄断地位，各种开源模型（如 PyTorch 框架）都是基于 NVIDIA 优化的。AMD 虽然算力纸面数据不错（性价比高），但软件生态（ROCm）配置非常折腾，容易报错。
显存决定上限：跑 AI（特别是部署大语言模型 LLM 或 Stable Diffusion 画图），显存容量比算力更重要。24GB 显存的 RTX 3090 或 RTX 4090 是目前个人 AI 玩家的最优解。如果预算有限，16GB 的 RTX 4070 Ti Super / 4080 Super 也是极佳选择。

看消费级排名表即可，FP32 算力排名基本与游戏高分辨率帧数表现正相关。AMD 显卡（如 7900 XTX）在纯打游戏方面性价比极高。

企业级AI芯片算力排名

梯队	显卡型号	核心架构	显存容量	FP32	AI算力 (FP16/FP8稀疏)	主要应用场景
T0 王者	NVIDIA B200	Blackwell	192GB HBM3e		~9,000 / 18,000 TFLOPs	下一代超大型AI模型训练
T1 顶流	NVIDIA H200	Hopper	141GB HBM3e	67 TFLOPs	1,979 / 3,958 TFLOPs	当前主流大模型训练首选
T1 顶流	AMD MI300X	CDNA 3	192GB HBM3	163 TFLOPs	1,300 / 2,600 TFLOPs	高性价比大模型推理/训练
T1 顶流	NVIDIA H100 (SXM5)	Hopper	80GB HBM3	67 TFLOPs	1,979 / 3,958 TFLOPs	ChatGPT等大模型底层算力
T2 高端	NVIDIA A100 (SXM4)	Ampere	80GB HBM2e	19.5 TFLOPs	312 / 624 TFLOPs	经典AI算力卡，性价比极高
T2 高端	AMD MI250X	CDNA 2	128GB HBM2e	47.9 TFLOPs	383 TFLOPs (FP16)	超算中心、HPC科学计算
T3 中坚	NVIDIA L40S	Ada Lovelace	48GB GDDR6	91.6 TFLOPs	366 / 733 TFLOPs	AI推理、数字孪生、图形渲染

排名	显卡型号	显存	FP32算力	AI/张量算力 (FP16稀疏)	架构
1	NVIDIA RTX 6000 Ada (工作站)	48GB	91.1 TFLOPs	1,457 TFLOPs	Ada Lovelace
2	NVIDIA RTX 4090	24GB	82.6 TFLOPs	1,321 TFLOPs	Ada Lovelace
3	AMD RX 7900 XTX	24GB	61.3 TFLOPs	122 TFLOPs (无张量核)	RDNA 3
4	NVIDIA RTX 4080 Super	16GB	52.2 TFLOPs	836 TFLOPs	Ada Lovelace
5	AMD RX 7900 XT	20GB	51.5 TFLOPs	103 TFLOPs (无张量核)	RDNA 3
6	NVIDIA RTX 4080	16GB	48.7 TFLOPs	780 TFLOPs	Ada Lovelace
7	NVIDIA RTX 4070 Ti Super	16GB	44.1 TFLOPs	706 TFLOPs	Ada Lovelace
8	NVIDIA RTX 3090 Ti	24GB	40.0 TFLOPs	320 TFLOPs	Ampere
9	NVIDIA RTX 4070 Ti	12GB	40.0 TFLOPs	641 TFLOPs	Ada Lovelace
10	AMD RX 7900 GRE	16GB	37.0 TFLOPs	74 TFLOPs (无张量核)	RDNA 3
11	NVIDIA RTX 3090	24GB	35.6 TFLOPs	284 TFLOPs	Ampere
12	NVIDIA RTX 4070 Super	12GB	35.5 TFLOPs	568 TFLOPs	Ada Lovelace
13	AMD RX 6950 XT	16GB	23.8 TFLOPs		RDNA 2

版权声明：本文内容整理自微信公众号「17change」，仅做排版整理，主体内容未做篡改。