大模型推理引擎相关技术主要包括 vLLM、SG-Lang、Mooncake 等。这些引擎通过优化内存管理、计算效率和并行计算能力,提升了大模型的推理速度和吞吐量。重点以 vLLM 作为例子,深入地介绍大模型推理框架的底层细节和逻辑架构。
PPT和字幕需要到 Github 下载,网页课程版链接会失效哦~建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
| 大纲 | 小节 | 链接 |
|---|---|---|
| 大模型推理框架 | 01 大模型推理流程 | PPT, 视频 |
| 大模型推理框架 | 02 大模型推理框架概述 | PPT, 视频 |
| 大模型推理框架 | 03 vLLM 推理架构剖析(待更新) | PPT, 视频 |
文字课程开源在 AI Infra,系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
请大家尊重开源和 ZOMI 和贡献者的努力,引用 PPT 的内容请规范转载标明出处哦!