NVIDIA GPU 架构总结

2025-06-28 6520字约27分钟读完暂无评论

Celsius（塞尔修斯）

名称来源

安德斯·塞尔修斯（1701 年 11 月 27 日 - 1744 年 4 月 25 日）是瑞典天文学家、物理学家和数学家。他于 1730 年至 1744 年担任乌普萨拉大学的天文学教授，但从 1732 年到 1735 年旅行，参观了德国、意大利和法国的著名天文台。他于 1741 年创立了乌普萨拉天文台，并于 1742 年提出了（倒置形式）摄氏温标，后来以他的名字更名为摄氏温标。

架构信息

发布时间：1999年
晶体管数量：约 1700万 - 2900万
制程：220 nm（早期型号）、150 nm（更新型号）
代表型号：
- GeForce 256 (NV10)
- GeForce 2 系列 (NV11, NV15, NV17, NV18)
- GeForce 4 MX IGP（集成显卡）
核心参数：
- 支持 DirectX 7.0/OpenGL 1.2
- 包含 4-8 像素渲染单元和 4-8 纹理单元
- 核心频率约 143 - 250 MHz
- 提供双显示器支持（TwinView技术）

Kelvin（开尔文）

名称来源

威廉·汤姆森，第一代开尔文男爵（1824 年 6 月 26 日 - 1907 年 12 月 17 日），是一位英国数学家、数学物理学家和工程师。他出生于贝尔法斯特，在格拉斯哥大学担任自然哲学教授长达 53 年，他为统一物理学做出了重大贡献，当时物理学作为一门新兴学科正处于发展初期。

架构信息

晶体管数量：约 4400万 - 6300万
制程：150 nm
代表型号：
- GeForce 3 (NV20)
- GeForce 4 (NV25, NV28)
- 微软初代Xbox GPU (NV2a)
核心参数：
- 支持 DirectX 8.1/OpenGL 1.5
- 新增第二代变换照明系统（Transform and Lighting T&L）
- 核心频率约230 - 330 MHz
- 引入 Nvidia Shading Rasterizer (NSR)

Rankine（兰金）

名称来源

威廉·约翰·麦昆·兰金 FRSE FRS（1820 年 7 月 5 日 - 1872 年 12 月 24 日）是苏格兰数学家和物理学家。他与鲁道夫·克劳修斯（Rudolf Clausius）和威廉·汤姆森（William Thomson）（开尔文勋爵）一起为热力学科学做出了开创性的贡献

架构信息

发布时间：2003年
晶体管数量：1.25亿（高端型号）
制程：150 nm、140 nm、130 nm
代表型号：
- GeForce FX 5800 Ultra (NV30)
- Quadro FX（工作站级别显卡）
核心参数：
- 支持 DirectX 9.0 / OpenGL 1.5（2.1）
- 强化材质着色器技术
- 内存接口带宽最高128位
- 核心频率约 325 - 500 MHz

Curie（居里）

名称来源

玛丽亚·萨洛梅娅·斯克沃多夫斯卡-居里（1867 年 11 月 7 日至 1934 年 7 月 4 日），简称居里夫人，是一位波兰归化法国的物理学家和化学家，他对放射性进行了开创性的研究。

架构信息

发布时间：2004年
晶体管数量：2.22亿（高端型号）
制程：130 nm、110 nm、90 nm
代表型号：
- GeForce 6800 Ultra (NV40)
- Quadro FX 5500
- 索尼 PlayStation 3 集成 GPU (RSX-4)
核心参数：
- 支持 DirectX 9.0c / OpenGL 2.1
- 首次支持动态分支技术提高性能
- 具备 Nvidia PureVideo视频压缩技术
- 核心频率最高约550 MHz

Tesla（特斯拉）

名称来源

尼古拉·特斯拉（1856 年 7 月 10 日 - 1943 年 1 月 7 日）是塞尔维亚裔美国人工程师、未来学家和发明家。他以对现代交流电（AC）供电系统设计的贡献而闻名。

架构信息

发布时间：2006年
晶体管数量：6.81亿（GeForce 9800 GTX）
制程：90 nm、65 nm、55 nm
代表型号：
- GeForce 8xx系列 (G80)
- Tesla加速卡
- GeForce GTX 280 (GT200b)
核心参数：
- 支持DirectX 10/OpenGL 2.1-3.3
- 引入统一着色器模型（Unified Shader Model）
- 支持CUDA通用计算（用于HPC/AI任务）
- 核心频率400 - 780 MHz

Fermi（费米）

名称来源

恩里克·费米，美籍意大利科学家，费米悖论提出者，1938年诺贝尔物理学奖得主，首个可控核反应堆（芝加哥一号堆）缔造者，为原子弹研发奠定了基础，开启原子能时代，被称为原子能之父。

架构信息

发布时间：2010年
晶体管数量：30亿
制程：40nm
代表型号：GTX590
核心参数：16个SM,每个SM包含32个CUDS，一共有512个CUDA

Kepler（开普勒）

名称来源

以欧洲天文学家约翰内斯·开普勒（Johannes Kepler）命名，他是天体物理学和光学领域的先驱。

架构信息

发布时间：2012年
晶体管数量：约70亿
制程：28nm
代表型号：GeForce GTX 680、GeForce GTX 690
核心参数
- 1368个CUDA核心，8个SM单元（每个SM单元包含192个CUDA核心）
- 支持DirectX 11.2/OpenGL 4.3
- 首次引入动态并行（Dynamic Parallelism）技术
- 支持NVLink 1.0（高端型号）
- 支持G-SYNC技术，提升游戏画面流畅性
- 支持多显示器输出（最多4个显示器）
- 显存带宽最高达256bit/288GB/s（高端型号）

Maxwell（麦克斯韦）

名称来源

以苏格兰物理学家詹姆斯·克拉克·麦克斯韦（James Clerk Maxwell）命名，他为电磁学和热力学领域奠定了理论基础。

枡构信息

发布时间：2014年
晶体管数量：约18亿
制程：28nm（后续升级至16nm）
代表型号：GeForce 700系列（GTX 780/780 Ti）
核心参数
- 1072个CUDA核心，16个SM单元（每个SM单元含64个CUDA核心）
- 支持DirectX 12/Vulkan 1.0
- 首次引入光线追踪加速技术
- 显存接口带宽提升至192bit/176GB/s
- 支持G-SYNC技术，降低画面撕裂
- 加入GDDR5X显存支持，提升数据吞吐
- 支持HDD 4.0接口，优化存储性能

Pascal（帕斯卡）

名称来源

以法国数学家和物理学家布莱士·帕斯卡（Blaise Pascal）命名，他为计算科学和流体力学做出了贡献。

架构信息

发布时间：2016年
晶体管数量：约150亿
制程：16nm FinFET
代表型号：GeForce GTX 10系（GTX 1080 Ti）、Tesla P100
核心参数
- 基于16nm工艺，核心数达1200+
- 支持FP16半精度计算，能效比提升30%
- 引入NVLink 2.0，跨GPU互联带宽达300GB/s
- 支持HDD 4.0接口，提升多显卡协同效率
- 支持DLSS 2.0，通过AI提升帧率
- 首次搭载HBM2显存，显存带宽达484GB/s（高端型号）

Volta（伏特）

名称来源

以意大利物理学家亚历山德罗·伏特（Alessandro Volta）命名，他发明了电池和伏特电势差单位。

架构信息

发布时间：2017年
晶体管数量：210亿
制程：12nm FinFET
代表型号：Tesla V100、TITAN V
核心参数
- 引入Tensor Core，支持FP16/FP32混合精度计算
- 每SM单元含64个FP32核心，32个FP64核心（专业型号）
- 支持CUDA 9.0，优化AI训练加速
- 初代Tensor Core提供10倍AI算力提升
- 支持NVLink 2.0，带宽达 300GB/s
- 支持HPC和深度学习双模式，显存带宽达900GB/s（V100）

Turing（图灵）

名称来源

以英国数学家艾伦·图灵（Alan Turing）命名，他被誉为计算机科学奠基人。

架构信息

发布时间：2018年
晶体管数量：186亿
制程：12nm FinFET
代表型号：GeForce RTX 2080 Ti、RTX 3080
核心参数
- 首次搭载RT Core，实现实时光线追踪
- 1536个CUDA核心，46个SM单元
- 支持FP32/FP64计算，能效比提升50%
- 引入DLSS 2.0，AI生成帧技术提升画质与性能
- 支持NVLink 3.0，显存带宽达600GB/s
- 支持HDD 4.0接口，优化数据传输效率

Ampere（安培）

名称来源

以法国物理学家安德烈-马里·安培（André-Marie Ampère）命名，他为电磁学研究做出奠基性贡献。

构架信息

发布时间：2020年
晶体管数量：540亿
制程：8nm GAA（门极堆叠）
代表型号：GeForce RTX 3090、A100 GPU
核心参数
- 第三代Tensor Core，支持FP32/FP64混合精度计算
- 支持DLSS 3.0，AI生成帧提升性能
- 每SM单元含128个CUDA核心，核心数突破10496个
- 支持HDD 4.0，显存带宽达933GB/s（A100）
- 支持NVLink 3.0，跨GPU互联带宽达600GB/s
- 支持HPC和AI双场景优化

**Ada Lovelace（阿达）

名称来源

以英国数学家阿达·洛夫莱斯（Ada Lovelace）命名，她是世界上首位程序员。

架构信息

发布时间：2022年
晶体管数量：920亿
制程：4nm GAA
代表型号：GeForce RTX 4090、TITAN RTX 40系
核心参数
- 第四代Tensor Core，支持FP4/FP6数据类型
- 显存带宽达 288GB/s，HBM3显存技术
- 128个SM单元，CUDA核心达 2176+
- 支持DLSS 3.0，AI帧生成技术
- 支持HDD 5.0，数据传输效率提升2倍
- 支持HPC和AI超大规模计算

**Hopper（赫柏）

名称来源

以美国计算机科学家格蕾丝·赫柏（Grace Hopper）命名，她为计算机编程语言开发奠基。

架构信息

发布时间：2022年
晶体管数量：1100亿
制程：5nm GAA
代表型号：H100 GPU、Grace Hopper Superchip
核心参数
- 第五代Tensor Core，支持FP4/FP32混合精度计算
- 每SM单元含64个CUDA核心，显存带宽达1TB/s
- 支持异构计算（CPU+GPU协同）
- HPC性能比Ampere 提升3倍
- 支持NVLink 4.0，显存带宽超1TB/s
- 支持AI训练加速，每秒处理2.5万亿次操作

**Blackwell（布莱克韦尔）

名称来源

以计算机科学家John H. Blackwell命名，他在计算机架构和并行计算领域有显著贡献。

架构信息

发布时间：2024年
晶体管数量：2080亿
制程：4nm GAA
代表型号：Blackwell GPU、Blackwell Ultra
核心参数
- 第五代Tensor Core，支持FP4/FP6数据类型
- 双芯片设计，配有10TB/s互联带宽
- 48个SM单元，CUDA核心达2880+
- 支持AI推理和训练，能效比比图灵提升2.5倍
- 首次搭载HBM3e显存，带宽达1.5TB/s
- 支持DLSS 4，实时AI超采样技术

NVIDIA GPU 架构总结

https://blog.moyanjdc.top/archives/12/

本文作者 MoYan

发布时间 2025-06-28

许可协议 CC BY-NC-SA 4.0