AI 硬件体系结构主要是指 AI 芯片,这里就很硬核了,从芯片的基础到 AI 芯片的范围都会涉及,芯片设计需要考虑上面 AI 框架的前端、后端编译,而不是停留在天天喊着吊打英伟达,被现实打趴。
欢迎大家使用的过程中发现 bug 或者勘误直接提交 PR 到开源社区哦!
请大家尊重开源和 ZOMI 的努力,引用 PPT 的内容请规范转载标明出处哦!
-
《AI 计算体系》:深入深度学习计算模式,从而理解“计算”需要什么。通过 AI 芯片关键指标,了解 AI 芯片要更好的支持“计算”,需要关注那些重点工作。最后通过深度学习的计算核心“矩阵乘”来看对“计算”的实际需求和情况,为了提升计算性能、降低功耗和满足训练推理不同场景应用,对“计算”引入 TF32/BF16 等复杂多样的比特位宽。
-
《AI 芯片基础》:简单从 CPU 开始看通用逻辑架构(冯诺依曼架构)开始,通过打开计算的本质(数据与时延)从而引出对于并行计算 GPU 作用和解决的业务场景,到目前最火的 AI 芯片 NPU。最后迈入超异构并行 CPU、GPU、NPU 并存的计算系统架构黄金十年。
-
《图形处理器 GPU》:主要是深入地讲解 GPU 的工作原理,其最重要的指标是计算吞吐和存储和传输带宽,并对英伟达的 GPU 的十年 5 代架构进行梳理。此外,《NVIDIA GPU 详解》英伟达架构里面专门为 AI 而生的 Tensor Core 和 NVLink 对 AI 加速尤为重要,因此重点对 Tensor Core 和 NVLink 进行深入剖析其发展、演进和架构。
-
《英伟达 GPU 详解》: 英伟达架构里面专门为 AI 而生的 Tensor Core 和 NVLink 对 AI 加速尤为重要,因此重点对 Tensor Core 和 NVLink 进行深入剖析其发展、演进和架构。
-
《国外 AI 芯片》:深入地剖析国外 Google TPU 和特斯拉 DOJO 相关 AI 芯片的架构,以 TPU 为主主要使用了数据流(Data FLow)的方式的脉动阵列来加速矩阵的运算,而特斯拉则使用了近存计算(Near Memory)两种不同的产品形态。
-
《国内 AI 芯片》:深入地解读国内 AI 初创芯片厂商如国内第一 AI 芯片上市公司寒武纪、国内造 GPU 声势最大的壁仞科技、腾讯重头的燧原科技等科技公司的 AI 芯片架构。
-
《AI 芯片黄金十年》:基于 AI 芯片的 SIMD 硬件结构和 SIMT 的硬件结构原理,分析其上层的编程模型 SPMD 与 CUDA 之间的关系,去了解做好 AI 芯片其实跟软件的关联性也有着密切的关系,并对 AI 芯片近 10 年的发展进行一个总结和思考。
希望这个系列能够给朋友们带来一些帮助,也希望 ZOMI 能够继续坚持完成所有内容哈!欢迎您也参与到这个开源项目的贡献!
PPT和字幕需要到 Github 下载,网页课程版链接会失效哦~建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
| 大纲 | 小节 | 链接 |
|---|---|---|
| AI 计算体系 | 01 课程内容 | slide, video, 字幕 |
| AI 计算体系 | 02 AI 计算模式(上) | slide, video, 字幕 |
| AI 计算体系 | 03 AI 计算模式(下) | slide, video, 字幕 |
| AI 计算体系 | 04 关键设计指标 | slide, video, 字幕 |
| AI 计算体系 | 05 核心计算:矩阵乘 | slide, video, 字幕 |
| AI 计算体系 | 06 数据单位:比特位 | slide, video, 字幕 |
| AI 计算体系 | 07 AI 计算体系总结 | slide, video, 字幕 |
| 大纲 | 小节 | 链接 |
|---|---|---|
| AI 芯片基础 | 01 CPU 基础原理 | slide, video, 字幕 |
| AI 芯片基础 | 02 CPU 指令集架构 | slide, video, 字幕 |
| AI 芯片基础 | 03 CPU 计算本质 | slide, video, 字幕 |
| AI 芯片基础 | 04 CPU 计算时延 | slide, video, 字幕 |
| AI 芯片基础 | 05 GPU 基础原理 | slide, video, 字幕 |
| AI 芯片基础 | 06 NPU 基础原理 | slide, video, 字幕 |
| AI 芯片基础 | 07 超异构计算 | slide, video, 字幕 |
| 大纲 | 小节 | 链接 |
|---|---|---|
| 图形处理器 GPU | 01 GPU 工作原理 | 文章, PPT, video, 字幕 |
| 图形处理器 GPU | 02 GPU 适用于 AI | slide, video, 字幕 |
| 图形处理器 GPU | 03 GPU 架构与 CUDA 关系 | slide, video, 字幕 |
| 图形处理器 GPU | 04 GPU 架构回顾第一篇 | slide, video, 字幕 |
| 图形处理器 GPU | 05 GPU 架构回顾第二篇 | slide, video, 字幕 |
| 大纲 | 小节 | 链接 |
|---|---|---|
| GPU 原理详解 | 01 TensorCore 原理(上) | slide, video , 字幕 |
| GPU 原理详解 | 02 TensorCore 架构(中) | slide, video, 字幕 |
| GPU 原理详解 | 03 TensorCore 剖析(下) | slide, video, 字幕 |
| GPU 原理详解 | 04 分布式通信与 NVLink | slide, video, 字幕 |
| GPU 原理详解 | 05 NVLink 原理剖析 | slide, video |
| GPU 原理详解 | 05 NVSwitch 原理剖析 | slide, video |
| 大纲 | 小节 | 链接 |
|---|---|---|
| 国外 AI 芯片 | 01 特斯拉 DOJO 架构 | slide, video |
| 国外 AI 芯片 | 02 特斯拉 DOJO 细节 | slide, video |
| 国外 AI 芯片 | 03 特斯拉 DOJO 存算系统 | slide, video |
| 国外 AI 芯片 | 04 谷歌 TPU 芯片发展 | slide, video |
| 国外 AI 芯片 | 05 谷歌 TPU1 脉动阵列 | slide, video |
| 国外 AI 芯片 | 06 谷歌 TPU2 推理到训练 | slide, video |
| 国外 AI 芯片 | 07 谷歌 TPU3 POD 超节点 | slide, video |
| 国外 AI 芯片 | 08 谷歌 TPU4 AI 集群 | slide, video |
| 国外 AI 芯片 | 08 谷歌 OCS 光交换机 | slide, video |
| 大纲 | 小节 | 链接 |
|---|---|---|
| 国外 AI 芯片 | 01 壁仞 BR100 产品介绍 | slide, video |
| 国外 AI 芯片 | 02 壁仞 BR100 芯片架构 | slide, video |
| 国外 AI 芯片 | 03 燧原科技 AI 芯片 | slide, video |
| 国外 AI 芯片 | 04 寒武纪 AI 芯片第一股 | slide, video |
| 国外 AI 芯片 | 05 寒武纪 AI 芯片架构剖析(上) | slide, video |
| 国外 AI 芯片 | 06 寒武纪 AI 芯片架构剖析(下) | slide, video |
| 大纲 | 小节 | 链接 |
|---|---|---|
| AI 芯片黄金十年 | 01 芯片的编程体系 | slide, video |
| AI 芯片黄金十年 | 02 SIMD 和 SIMT 跟 AI 芯片关系 | slide, video |
| AI 芯片黄金十年 | 03 CUDA/SIMD/SIMT/DSA 关系 | slide, video |
| AI 芯片黄金十年 | 04 CUDA 跟 SIMT 硬件关系 | slide, video |
| AI 芯片黄金十年 | 05 从 CUDA 和 NVIDIA 中借鉴 | slide, video |
| AI 芯片黄金十年 | 06 AI 芯片的思考 | slide, video |
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AISys ,希望您多多鼓励和参与进来!!!
文字课程开源在 AISys,系列视频托管B 站和油管,PPT 开源在github,欢迎取用!!!
非常希望您也参与到这个开源项目中,B 站给 ZOMI 留言哦!
欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!
