Skip to content

[+] added new post(nvidia icms dpu), added series idx for series insertion#45

Merged
JaeoneLim merged 11 commits intomainfrom
feature/nvidia-icms-dpu
Feb 24, 2026
Merged

[+] added new post(nvidia icms dpu), added series idx for series insertion#45
JaeoneLim merged 11 commits intomainfrom
feature/nvidia-icms-dpu

Conversation

@JaeoneLim
Copy link
Copy Markdown
Contributor

@JaeoneLim JaeoneLim commented Feb 22, 2026

지피지기 4편 PR입니다.
이번 글에서는 CES2026에서 발표된 rubin platform의 ICMS와 DPU에 대해 써보았습니다.
과감한 피드백 부탁드립니다.

vLLM, SGLang, LMCache관련 부분은 소프트웨어분들의 리뷰가 필요합니다.
(LMCache 관련 저희 software 스택 로드맵은 구두로 들은 내용으로만 적어두었는데 정확하지 않은 내용이 있거나 공개하면 안되는 부분이 있는지 확인이 필요합니다.)

다음 편은 아직 미정인데, 후보 중 하나인 빅테크들 자체 ASIC 분석하기로 일단 올려두었습니다.
생각 중인 다른 다음 편 후보들은 아래와 같습니다. 최종 push 전에 수정될 가능 성이 있습니다.

  • HBM + HBF : memory bottleneck을 위한 또다른 solution (하닉에서 올린 paper와 다른 학계 의견 참고)
  • Taals : Hardcore 모델 weight와 구조 자체를 실리콘에 hardwiring시켜서 성능을 끌어올린 AI 스타트업입니다. 며칠전부터 뉴스에서 많이 돌았는데 알아볼까 합니다.
  • Cerebras : wafer scale engine

시리즈 중간에 외전형식의 글을 추가할 수 있도록 series idx 기능을 추가했습니다.
series idx에 소수점을 사용하면 게시 날짜가 다르더라도 중간에 insert할 수 있습니다.
series idx를 명시하지 않으면 날짜순으로 정렬되기 때문에 기존 게시글에 영향은 없습니다.
e.g) using series 2.5
image

image

Copilot AI review requested due to automatic review settings February 22, 2026 11:10
@JaeoneLim JaeoneLim requested a review from a team as a code owner February 22, 2026 11:10
@gemini-code-assist
Copy link
Copy Markdown
Contributor

Summary of Changes

Hello @JaeoneLim, I'm Gemini Code Assist1! I'm currently reviewing this pull request and will post my feedback shortly. In the meantime, here's a summary to help you and other reviewers quickly get up to speed!

This pull request introduces a new, in-depth blog post that examines the critical memory capacity bottleneck faced by large language models and presents NVIDIA's innovative solution: the Inference Context Memory Storage (ICMS) platform, managed by the Bluefield-4 Data Processing Unit (DPU). The article thoroughly explains the technical underpinnings of this hardware-software co-design, including how it extends GPU-accessible memory to SSDs and integrates with advanced inference optimization frameworks, providing valuable insights into the future of AI infrastructure.

Highlights

  • New Blog Post Content: A comprehensive article was added, titled "Know Your Enemy, Know Yourself, Part 4: Memory Capacity Bottleneck and NVIDIA ICMS," which explores NVIDIA's solution to LLM memory constraints.
  • NVIDIA ICMS and DPU Explained: The post details the technical principles of NVIDIA's Inference Context Memory Storage (ICMS) and the Bluefield-4 Data Processing Unit (DPU) designed to manage it.
  • LLM Memory Bottleneck Analysis: The article analyzes the emerging memory capacity bottleneck in Large Language Models, particularly concerning KV cache requirements for reasoning models and agentic AI.
  • Software Optimization Frameworks: Various inference optimization frameworks like vLLM, SGLang, and LMCache are discussed, highlighting their role in overcoming bandwidth limitations and enhancing KV cache management.
Changelog
  • content/posts/nvidia-icms-dpu/index.en.md
    • Added a new blog post titled "Know Your Enemy, Know Yourself, Part 4: Memory Capacity Bottleneck and NVIDIA ICMS" in English.
  • content/posts/nvidia-icms-dpu/index.ko.md
    • Added a new blog post titled "지피지기면 백전불태 4편 : 메모리 용량 병목과 NVIDIA ICMS" in Korean.
Activity
  • No human activity has been recorded on this pull request yet.
Using Gemini Code Assist

The full guide for Gemini Code Assist can be found on our documentation page, here are some quick tips.

Invoking Gemini

You can request assistance from Gemini at any point by creating a comment using either /gemini <command> or @gemini-code-assist <command>. Below is a summary of the supported commands on the current page.

Feature Command Description
Code Review /gemini review Performs a code review for the current pull request in its current state.
Pull Request Summary /gemini summary Provides a summary of the current pull request in its current state.
Comment @gemini-code-assist Responds in comments when explicitly tagged, both in pull request comments and review comments.
Help /gemini help Displays a list of available commands.

Customization

To customize Gemini Code Assist for GitHub experience, repository maintainers can create a configuration file and/or provide a custom code review style guide (such as PEP-8 for Python) by creating and adding files to a .gemini/ folder in the base of the repository. Detailed instructions can be found here.

Limitations & Feedback

Gemini Code Assist may make mistakes. Please leave feedback on any instances where its feedback is incorrect or counter productive. You can react with 👍 and 👎 on @gemini-code-assist comments. If you're interested in giving your feedback about your experience with Gemini Code Assist for Github and other Google products, sign up here.

You can also get AI-powered code generation, chat, as well as code reviews directly in the IDE at no cost with the Gemini Code Assist IDE Extension.

Footnotes

  1. Review the Privacy Notices, Generative AI Prohibited Use Policy, Terms of Service, and learn how to configure Gemini Code Assist in GitHub here. Gemini can make mistakes, so double check it and use code with caution.

Copy link
Copy Markdown
Contributor

@gemini-code-assist gemini-code-assist bot left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Code Review

The pull request introduces a detailed blog post in both English and Korean focusing on NVIDIA's ICMS and Bluefield-4 DPU. The content effectively explains the KV cache capacity bottleneck and the role of DPUs in modern AI infrastructure. I have identified a few minor typos, a factual correction regarding the Llama 3.1 model parameters (405B instead of 401B), and a capitalization inconsistency.

JaeoneLim and others added 4 commits February 22, 2026 20:11
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Copy link
Copy Markdown
Contributor

Copilot AI left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Pull request overview

This pull request adds a new technical blog post about NVIDIA's ICMS (Inference Context Memory Storage) and Bluefield-4 DPU as the 4th installment in the "Know Your Enemy, Know Yourself" series. The post explores how NVIDIA addresses the emerging KV cache capacity bottleneck in LLM inference through a new storage tier and supporting hardware/software infrastructure.

Changes:

  • Adds Korean version of the blog post explaining ICMS, DPU architecture, and related inference optimization frameworks
  • Adds English translation of the same content
  • Includes supporting images (vLLM/SGLang logos and LMCache logo)

Reviewed changes

Copilot reviewed 2 out of 13 changed files in this pull request and generated 8 comments.

File Description
content/posts/nvidia-icms-dpu/index.ko.md Korean version of the blog post covering NVIDIA ICMS, Bluefield-4 DPU, and KV cache management solutions
content/posts/nvidia-icms-dpu/index.en.md English translation of the blog post with the same technical content
content/posts/nvidia-icms-dpu/images/vllm_and_sglang_logo.png Logo image for vLLM and SGLang frameworks
content/posts/nvidia-icms-dpu/images/lmcache_logo.png Logo image for LMCache framework

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

JaeoneLim and others added 2 commits February 23, 2026 12:40
Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
### 추론 최적화를 위한 프레임워크 : vLLM과 SGLang, 그리고 LMCache

앞서 설명드린 KV cache의 특성을 활용하여 추론 연산을 최적화하기 위한 다양한 프레임워크들이 개발되어왔습니다. 지난번에 김재우님([Author](https://hyper-accel.github.io/authors/jaewoo-kim/), [LinkedIn](https://www.linkedin.com/in/jaewoo-kim-b38325237/))이 소개해주신 SGLang도 그 중 하나입니다.

Copy link
Copy Markdown
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

이전 글 링크를 넣으면 좋을듯 합니다. 링크는 요기
https://hyper-accel.github.io/posts/sglang-review/

![vllm & sglang](images/vllm_and_sglang_logo.png)
vLLM과 SGLang은 추론 연산 가속을 위한 엔진으로 **GPU 메모리 안에서** KV cache를 효율적으로 관리하기 위한 기능을 제공합니다. 그중 하나가 prefix caching인데요. 특정 request에서 입력된 sequence의 앞부분과 다음 request에서 입력된 sequence의 앞부분이 겹치는 경우 해당 부분 이전 request에서 생성된 KV cache를 그대로 재사용할 수 있는 기능입니다. 같은 request 내에서 decoding 작업 시 매 토큰 생성마다 해당 request 내에서 생성된 KV cache를 재사용하는 것은 기본적으로 가능하였습니다. 서로 다른 request에서도 입력토큰만 같다면 생성되는 KV cache는 같을 것이기 때문에 추가적인 연산 필요 없이 KV cache를 재사용할 수 있는 것입니다.

다만 vLLM과 SGLang의 한계는 KV cache 관리영역이 GPU memory (+CPU host memory)로 한정되어 있고 입력 토큰이 처음부터 같을때에만 prefix caching을 사용할 수 있다는 점입니다. 같은 sub sequence가 중간에 존재하더라도 위치가 다르면 재사용할 수 없는 것이죠. 이는 같은 토큰이더라도 토큰 위치에 따라 KV cache 값이 달라지기 때문입니다.
Copy link
Copy Markdown
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

심지어 위치가 같더라도 KV값은 달라집니다.
prefix가 다른 상황에서 중간에 오는 동일한 subsequence가 있다면 토큰 인덱스가 같아도 layer 0을 지나면서 attention을 거쳐 prefix의 차이가 반영되므로(causal attention) layer 1 부터는 hiddenstate가 달라지기 때문에 KV가 달라집니다. 그래서 "prefix"(접두어...?) caching이며 request 서두에 동일한 sub sequence가 올때에 재사용 가능합니다.

@JaeoneLim
Copy link
Copy Markdown
Contributor Author

JaeoneLim commented Feb 23, 2026

@DongHyunnn 리뷰 감사드립니다.

리뷰 반영하였고, series_idx 기능 추가하였습니다.
다음 글은 HBF 솔루션에 대해 알아보려 하는데, 지피지기 시리즈랑은 맞을지 좀 의문입니다. (아직 HBF를 쓰겠다는 로드맵을 발표한 팹리스는 없고 샌디스크나 하닉 같은 메모리 회사들이 개발을 주도하면서 GPU 탑재를 역으로 설득하는 구도로 보여서요)

@JaeoneLim JaeoneLim requested a review from DongHyunnn February 23, 2026 07:40
@JaeoneLim JaeoneLim changed the title [+] added new post(nvidia icms dpu) [+] added new post(nvidia icms dpu), added series idx for series insertion Feb 23, 2026
@DongHyunnn
Copy link
Copy Markdown
Contributor

DongHyunnn commented Feb 24, 2026

말씀하신대로 HBF가 메모리 회사 중심으로 추진되고 있다면 우리 경쟁사는 아닌듯 하네요... 신기술 다루는 어떤 다른 시리즈가 있으면 어떨까요? 다음 지피지기 시리즈는 Cerebras나 Tenstorrent는 어떨까요

@JaeoneLim
Copy link
Copy Markdown
Contributor Author

말씀하신대로 HBF가 메모리 회사 중심으로 추진되고 있다면 우리 경쟁사는 아닌듯 하네요... 신기술 다루는 어떤 다른 시리즈가 있으면 어떨까요?

아니면 4.5편으로 쓸까요

Copy link
Copy Markdown
Contributor

@DongHyunnn DongHyunnn left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

글 좋아요! 다음 시리즈는 제가 Cerebras로 쓰겠습니다~

@JaeoneLim
Copy link
Copy Markdown
Contributor Author

다음편 예고글 수정완료했습니다~

@JaeoneLim JaeoneLim merged commit 1763753 into main Feb 24, 2026
1 check passed
@JaeoneLim JaeoneLim deleted the feature/nvidia-icms-dpu branch February 24, 2026 12:10
DongHyunnn pushed a commit that referenced this pull request Feb 25, 2026
…rtion (#45)

지피지기 4편 PR입니다.
이번 글에서는 CES2026에서 발표된 rubin platform의 ICMS와 DPU에 대해 써보았습니다.
과감한 피드백 부탁드립니다.

vLLM, SGLang, LMCache관련 부분은 소프트웨어분들의 리뷰가 필요합니다.
(LMCache 관련 저희 software 스택 로드맵은 구두로 들은 내용으로만 적어두었는데 정확하지 않은 내용이 있거나 공개하면
안되는 부분이 있는지 확인이 필요합니다.)

다음 편은 아직 미정인데, 후보 중 하나인 **빅테크들 자체 ASIC 분석하기**로 일단 올려두었습니다.
생각 중인 다른 다음 편 후보들은 아래와 같습니다. 최종 push 전에 수정될 가능 성이 있습니다.

- HBM + HBF : memory bottleneck을 위한 또다른 solution (하닉에서 올린 paper와 다른 학계
의견 참고)
- Taals : [Hardcore](https://taalas.com/) 모델 weight와 구조 자체를 실리콘에
hardwiring시켜서 성능을 끌어올린 AI 스타트업입니다. 며칠전부터 뉴스에서 많이 돌았는데 알아볼까 합니다.
- Cerebras : wafer scale engine

시리즈 중간에 외전형식의 글을 추가할 수 있도록 series idx 기능을 추가했습니다.
series idx에 소수점을 사용하면 게시 날짜가 다르더라도 중간에 insert할 수 있습니다.
series idx를 명시하지 않으면 날짜순으로 정렬되기 때문에 기존 게시글에 영향은 없습니다.
e.g) using series 2.5
<img width="1628" height="898" alt="image"
src="https://github.com/user-attachments/assets/27b91a08-dbc6-469f-bf50-9089aeacd537"
/>

<img width="2230" height="772" alt="image"
src="https://github.com/user-attachments/assets/148eb850-592c-438f-aee4-bf97c2c92cd3"
/>

---------

Co-authored-by: JaeoneLim <lljy1022@mgmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
Co-authored-by: 임재원 <jaewon@MacBook-Air-3.local>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants