NVIDIA A100
为全球性能最高的弹性数据中心提供前所未有的加速
NVIDIA A100 张量核心 GPU 在各种规模上提供前所未有的加速,为世界上性能最高的弹性数据中心提供动力,用于人工智能、数据分析和高性能计算 (HPC) 应用程序。作为 NVIDIA 数据中心平台的引擎,A100 的性能比上一代 NVIDIA Volta 高出 20 倍。A100 可以有效地纵向扩展或分区为七个隔离的 GPU 实例,多实例 GPU (MIG) 提供了一个统一的平台,使弹性数据中心能够动态调整以适应不断变化的工作负载需求。
A100 是完整的 NVIDIA 数据中心解决方案的一部分,该解决方案整合了来自 NGC 的硬件、网络、软件、库以及优化的 AI 模型和应用程序的构建块。它代表了数据中心最强大的端到端 AI 和 HPC 平台,使研究人员能够提供真实世界的结果并将解决方案大规模部署到生产中,同时允许 IT 优化每个可用 A100 GPU 的利用率。

CUDA核心 |
6912 |
流式多处理器 |
108 |
张量核心 | Gen 3 |
432 |
显存 |
40 GB HBM2e ECC on by Default |
内存接口 |
5120-bit |
内存带宽 |
1555 GB/s |
NVLink |
2-Way, 2-Slot, 600 GB/s Bidirectional |
MIG(多实例 GPU)支持 |
最多支持7 个 GPU 实例 |
FP64 |
9.7 TFLOPS |
FP64 张量核心 |
19.5 TFLOPS |
FP32 |
19.5 TFLOPS |
TF32 张量核心 |
156 TFLOPS | 312 TFLOPS* |
BFLOAT16 张量核心 |
312 TFLOPS | 624 TFLOPS* |
FP16 张量核心 |
312 TFLOPS | 624 TFLOPS* |
INT8 张量核心 |
624 TOPS | 1248 TOPS* |
INT4 张量核心 |
1248 TOPS | 2496 TOPS* |
散热 |
被动 |
虚拟图形用户界面支持 |
英伟达虚拟计算服务器 (vCS) |
系统接口 |
PCIE 4.0 x16 |
最大功耗 |
250 W |
基于 NVIDIA 安培的架构
- A100 可加速大大小小的工作负载。无论是使用 MIG 将 A100 GPU 分区为较小的实例,还是使用 NVLink 连接多个 GPU 以加速大规模工作负载,A100 都可以轻松处理不同规模的应用程序需求,从最小的作业到最大的多节点工作负载。
第三代张量核心
- NVIDIA Tensor Core 技术首次在 NVIDIA Volta 架构中引入,为 AI 训练和推理操作带来了显著的加速,将训练时间从数周缩短到数小时,并为推理提供了巨大的加速。NVIDIA Ampere 架构以这些创新为基础,为 AI 提供高达 20 倍的 FLOPS。它通过提高现有精度的性能并引入新的精度(TF32、INT8 和 FP64)来加速和简化 AI 的采用,并将 NVIDIA 张量核心的强大功能扩展到 HPC。
面向 AI 的 TF32:性能提高 20 倍,零代码更改
- 随着人工智能网络和数据集继续呈指数级增长,它们的计算需求也在增长。低精度数学带来了巨大的性能加速,但它们历来需要一些代码更改。A100 带来了新的精度 TF32,它的工作方式与 FP32 一样,同时为 AI 提供 20 倍高的 FLOPS,而无需更改任何代码。NVIDIA 的自动混合精度功能只需使用 FP16 精度额外输入一行代码,即可将性能进一步提升 16 倍。A100 张量核心还包括对 BFLOAT16、INT8 和 INT4 精度的支持,使 A100 成为用于 AI 训练和推理的令人难以置信的多功能加速器。
双精度张量核心:自 FP64 以来最大的里程碑
- A100 将张量核心的强大功能引入 HPC,这是自为 HPC 引入双精度 GPU 计算以来最大的里程碑。A100 中的第三代张量核心可实现完全、符合 IEEE 标准的 FP64 精度的矩阵运算。通过 NVIDIA CUDA-X 数学库中的增强功能,与前几代 GPU 相比,一系列需要双精度数学运算的 HPC 应用程序现在可以在性能和效率方面提高多达 2.5 倍。
多实例图形处理器 (MIG)
- 每个 AI 和 HPC 应用程序都可以从加速中受益,但并非每个应用程序都需要完整 A100 的性能。借助多实例 GPU (MIG),每个 A100 可以分区为多达 7 个 GPU 实例,这些实例在硬件级别具有自己的高带宽内存、缓存和计算内核,完全隔离。现在,开发人员可以为他们的所有应用程序(无论大小)获得突破性的加速,并获得有保证的服务质量。IT 管理员可以提供适当大小的 GPU 加速,以实现最佳利用率,并扩展对每个用户和应用程序的访问。
- MIG 可在裸机和虚拟化环境中使用,并由 NVIDIA 容器运行时提供支持,该运行时支持所有主要运行时,如 LXC、Docker、CRI-O、Containerd、Podman 和 Singularity。每个 MIG 实例都是 Kubernetes 中的新 GPU 类型,并将通过 NVIDIA Device Plugin for Kubernetes 在本地和公共云上提供所有 Kubernetes 发行版,例如 Red Hat OpenShift、VMware Project Pacific 和其他发行版。管理员还可以通过 NVIDIA vComputeServer 在 MIG 实例上受益于基于虚拟机管理程序的虚拟化,包括基于 KVM 的虚拟机管理程序,如红帽 RHEL/RHV 和 VMware ESXi。
HBM2e
- 凭借 40 千兆字节 (GB) 的高带宽内存 (HBM2e),A100 可提供 1.6TB/秒的改进原始带宽,以及高达 95% 的更高动态随机存取存储器 (DRAM) 利用率。A100 的内存带宽比上一代高 1.7 倍。
结构稀疏性
- 人工智能网络很大,有数百万到数十亿个参数。并非所有这些参数都是准确预测所必需的,有些参数可以转换为零以使模型“稀疏”而不影响准确性。A100 中的张量核可以为稀疏模型提供高达 2 倍的性能。虽然稀疏性特征更容易使 AI 推理受益,但它也可以提高模型训练的性能。
下一代 NVLink
- 与上一代产品相比,A100 中的 NVIDIA NVLink 的吞吐量提高了 2 倍,速度高达 600 GB/s,可在单个服务器上释放出最高的应用程序性能。两个 NVIDIA A100 PCIe 板可以通过 NVLink 桥接,多对 NVLink 连接的板可以驻留在单个服务器中(数量因服务器封闭、散热和电源容量而异)。
每个深度学习框架,700+ GPU 加速应用程序
- NVIDIA A100 Tensor Core GPU 是 NVIDIA 数据中心平台的旗舰产品,用于深度学习、HPC 和数据分析。它可以加速每个主要的深度学习框架,并加速 700 多个 HPC 应用程序。从台式机到服务器再到云服务,它无处不在,既能显著提高性能,又能带来节省成本的机会。
虚拟化功能
- 使用 NVIDIA 虚拟计算服务器 (vCS) 的虚拟化计算工作负载,例如 AI、深度学习和高性能计算 (HPC)。NVIDIA A100 PCIe 是现有 V100/V100S Tensor Core GPU 基礎設施的理想升級途徑。
结构稀疏性:AI 性能提高 2 倍
- 现代人工智能网络很大,有数百万个参数,在某些情况下还有数十亿个参数。并非所有这些参数都是准确预测所必需的,有些参数可以转换为零以使模型“稀疏”而不影响准确性。A100 中的张量核可以为稀疏模型提供高达 2 倍的性能。虽然稀疏性特征更容易使 AI 推理受益,但它也可以提高模型训练的性能。