[+] added new post(nvidia icms dpu), added series idx for series insertion#45
[+] added new post(nvidia icms dpu), added series idx for series insertion#45
Conversation
Summary of ChangesHello @JaeoneLim, I'm Gemini Code Assist1! I'm currently reviewing this pull request and will post my feedback shortly. In the meantime, here's a summary to help you and other reviewers quickly get up to speed! This pull request introduces a new, in-depth blog post that examines the critical memory capacity bottleneck faced by large language models and presents NVIDIA's innovative solution: the Inference Context Memory Storage (ICMS) platform, managed by the Bluefield-4 Data Processing Unit (DPU). The article thoroughly explains the technical underpinnings of this hardware-software co-design, including how it extends GPU-accessible memory to SSDs and integrates with advanced inference optimization frameworks, providing valuable insights into the future of AI infrastructure. Highlights
Changelog
Activity
Using Gemini Code AssistThe full guide for Gemini Code Assist can be found on our documentation page, here are some quick tips. Invoking Gemini You can request assistance from Gemini at any point by creating a comment using either
Customization To customize Gemini Code Assist for GitHub experience, repository maintainers can create a configuration file and/or provide a custom code review style guide (such as PEP-8 for Python) by creating and adding files to a Limitations & Feedback Gemini Code Assist may make mistakes. Please leave feedback on any instances where its feedback is incorrect or counter productive. You can react with 👍 and 👎 on @gemini-code-assist comments. If you're interested in giving your feedback about your experience with Gemini Code Assist for Github and other Google products, sign up here. You can also get AI-powered code generation, chat, as well as code reviews directly in the IDE at no cost with the Gemini Code Assist IDE Extension. Footnotes
|
There was a problem hiding this comment.
Code Review
The pull request introduces a detailed blog post in both English and Korean focusing on NVIDIA's ICMS and Bluefield-4 DPU. The content effectively explains the KV cache capacity bottleneck and the role of DPUs in modern AI infrastructure. I have identified a few minor typos, a factual correction regarding the Llama 3.1 model parameters (405B instead of 401B), and a capitalization inconsistency.
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
There was a problem hiding this comment.
Pull request overview
This pull request adds a new technical blog post about NVIDIA's ICMS (Inference Context Memory Storage) and Bluefield-4 DPU as the 4th installment in the "Know Your Enemy, Know Yourself" series. The post explores how NVIDIA addresses the emerging KV cache capacity bottleneck in LLM inference through a new storage tier and supporting hardware/software infrastructure.
Changes:
- Adds Korean version of the blog post explaining ICMS, DPU architecture, and related inference optimization frameworks
- Adds English translation of the same content
- Includes supporting images (vLLM/SGLang logos and LMCache logo)
Reviewed changes
Copilot reviewed 2 out of 13 changed files in this pull request and generated 8 comments.
| File | Description |
|---|---|
| content/posts/nvidia-icms-dpu/index.ko.md | Korean version of the blog post covering NVIDIA ICMS, Bluefield-4 DPU, and KV cache management solutions |
| content/posts/nvidia-icms-dpu/index.en.md | English translation of the blog post with the same technical content |
| content/posts/nvidia-icms-dpu/images/vllm_and_sglang_logo.png | Logo image for vLLM and SGLang frameworks |
| content/posts/nvidia-icms-dpu/images/lmcache_logo.png | Logo image for LMCache framework |
💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.
Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
| ### 추론 최적화를 위한 프레임워크 : vLLM과 SGLang, 그리고 LMCache | ||
|
|
||
| 앞서 설명드린 KV cache의 특성을 활용하여 추론 연산을 최적화하기 위한 다양한 프레임워크들이 개발되어왔습니다. 지난번에 김재우님([Author](https://hyper-accel.github.io/authors/jaewoo-kim/), [LinkedIn](https://www.linkedin.com/in/jaewoo-kim-b38325237/))이 소개해주신 SGLang도 그 중 하나입니다. | ||
|
|
There was a problem hiding this comment.
이전 글 링크를 넣으면 좋을듯 합니다. 링크는 요기
https://hyper-accel.github.io/posts/sglang-review/
|  | ||
| vLLM과 SGLang은 추론 연산 가속을 위한 엔진으로 **GPU 메모리 안에서** KV cache를 효율적으로 관리하기 위한 기능을 제공합니다. 그중 하나가 prefix caching인데요. 특정 request에서 입력된 sequence의 앞부분과 다음 request에서 입력된 sequence의 앞부분이 겹치는 경우 해당 부분 이전 request에서 생성된 KV cache를 그대로 재사용할 수 있는 기능입니다. 같은 request 내에서 decoding 작업 시 매 토큰 생성마다 해당 request 내에서 생성된 KV cache를 재사용하는 것은 기본적으로 가능하였습니다. 서로 다른 request에서도 입력토큰만 같다면 생성되는 KV cache는 같을 것이기 때문에 추가적인 연산 필요 없이 KV cache를 재사용할 수 있는 것입니다. | ||
|
|
||
| 다만 vLLM과 SGLang의 한계는 KV cache 관리영역이 GPU memory (+CPU host memory)로 한정되어 있고 입력 토큰이 처음부터 같을때에만 prefix caching을 사용할 수 있다는 점입니다. 같은 sub sequence가 중간에 존재하더라도 위치가 다르면 재사용할 수 없는 것이죠. 이는 같은 토큰이더라도 토큰 위치에 따라 KV cache 값이 달라지기 때문입니다. |
There was a problem hiding this comment.
심지어 위치가 같더라도 KV값은 달라집니다.
prefix가 다른 상황에서 중간에 오는 동일한 subsequence가 있다면 토큰 인덱스가 같아도 layer 0을 지나면서 attention을 거쳐 prefix의 차이가 반영되므로(causal attention) layer 1 부터는 hiddenstate가 달라지기 때문에 KV가 달라집니다. 그래서 "prefix"(접두어...?) caching이며 request 서두에 동일한 sub sequence가 올때에 재사용 가능합니다.
|
@DongHyunnn 리뷰 감사드립니다. 리뷰 반영하였고, series_idx 기능 추가하였습니다. |
|
말씀하신대로 HBF가 메모리 회사 중심으로 추진되고 있다면 우리 경쟁사는 아닌듯 하네요... 신기술 다루는 어떤 다른 시리즈가 있으면 어떨까요? 다음 지피지기 시리즈는 Cerebras나 Tenstorrent는 어떨까요 |
아니면 4.5편으로 쓸까요 |
DongHyunnn
left a comment
There was a problem hiding this comment.
글 좋아요! 다음 시리즈는 제가 Cerebras로 쓰겠습니다~
|
다음편 예고글 수정완료했습니다~ |
…rtion (#45) 지피지기 4편 PR입니다. 이번 글에서는 CES2026에서 발표된 rubin platform의 ICMS와 DPU에 대해 써보았습니다. 과감한 피드백 부탁드립니다. vLLM, SGLang, LMCache관련 부분은 소프트웨어분들의 리뷰가 필요합니다. (LMCache 관련 저희 software 스택 로드맵은 구두로 들은 내용으로만 적어두었는데 정확하지 않은 내용이 있거나 공개하면 안되는 부분이 있는지 확인이 필요합니다.) 다음 편은 아직 미정인데, 후보 중 하나인 **빅테크들 자체 ASIC 분석하기**로 일단 올려두었습니다. 생각 중인 다른 다음 편 후보들은 아래와 같습니다. 최종 push 전에 수정될 가능 성이 있습니다. - HBM + HBF : memory bottleneck을 위한 또다른 solution (하닉에서 올린 paper와 다른 학계 의견 참고) - Taals : [Hardcore](https://taalas.com/) 모델 weight와 구조 자체를 실리콘에 hardwiring시켜서 성능을 끌어올린 AI 스타트업입니다. 며칠전부터 뉴스에서 많이 돌았는데 알아볼까 합니다. - Cerebras : wafer scale engine 시리즈 중간에 외전형식의 글을 추가할 수 있도록 series idx 기능을 추가했습니다. series idx에 소수점을 사용하면 게시 날짜가 다르더라도 중간에 insert할 수 있습니다. series idx를 명시하지 않으면 날짜순으로 정렬되기 때문에 기존 게시글에 영향은 없습니다. e.g) using series 2.5 <img width="1628" height="898" alt="image" src="https://github.com/user-attachments/assets/27b91a08-dbc6-469f-bf50-9089aeacd537" /> <img width="2230" height="772" alt="image" src="https://github.com/user-attachments/assets/148eb850-592c-438f-aee4-bf97c2c92cd3" /> --------- Co-authored-by: JaeoneLim <lljy1022@mgmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com> Co-authored-by: 임재원 <jaewon@MacBook-Air-3.local>
지피지기 4편 PR입니다.
이번 글에서는 CES2026에서 발표된 rubin platform의 ICMS와 DPU에 대해 써보았습니다.
과감한 피드백 부탁드립니다.
vLLM, SGLang, LMCache관련 부분은 소프트웨어분들의 리뷰가 필요합니다.
(LMCache 관련 저희 software 스택 로드맵은 구두로 들은 내용으로만 적어두었는데 정확하지 않은 내용이 있거나 공개하면 안되는 부분이 있는지 확인이 필요합니다.)
다음 편은 아직 미정인데, 후보 중 하나인 빅테크들 자체 ASIC 분석하기로 일단 올려두었습니다.
생각 중인 다른 다음 편 후보들은 아래와 같습니다. 최종 push 전에 수정될 가능 성이 있습니다.
시리즈 중간에 외전형식의 글을 추가할 수 있도록 series idx 기능을 추가했습니다.

series idx에 소수점을 사용하면 게시 날짜가 다르더라도 중간에 insert할 수 있습니다.
series idx를 명시하지 않으면 날짜순으로 정렬되기 때문에 기존 게시글에 영향은 없습니다.
e.g) using series 2.5