feat: add NVIDIA Kimi K2.5 demo + fix Hub model routing for custom endpoints

study8677 · claude · study8677 · commit 6fb2634cd9f4 · 2026-03-19T20:46:25.000+08:00
- Fix create_model() to route custom base URLs through litellm (NVIDIA,
  Ollama, etc.) even when OPENAI_API_KEY is also set — previously the
  Agent SDK failed with "Unknown prefix: moonshotai"
- Add "Real-World Demo: NVIDIA API + Kimi K2.5" section to all 3 READMEs
  with tested ag refresh / ag ask / ag report / ag log-decision output
- Add test case for base_url + api_key routing (NVIDIA scenario)
- Verified end-to-end: scanner → Hub pipeline → conventions.md generation

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/README.md b/README.md
@@ -269,6 +269,58 @@ See [Sandbox docs](docs/en/SANDBOX.md).
 
 ---
 
+## Real-World Demo: NVIDIA API + Kimi K2.5
+
+Tested end-to-end with [Moonshot Kimi K2.5](https://build.nvidia.com/moonshotai/kimi-k2-5) via NVIDIA's free API tier. Any OpenAI-compatible endpoint works the same way.
+
+**1. Configure `.env`**
+
+```bash
+OPENAI_BASE_URL=https://integrate.api.nvidia.com/v1
+OPENAI_API_KEY=nvapi-your-key-here
+OPENAI_MODEL=moonshotai/kimi-k2.5
+```
+
+**2. Scan your project**
+
+```bash
+$ ag refresh --workspace .
+Updated .antigravity/conventions.md
+```
+
+Generated output (by Kimi K2.5):
+```markdown
+# Project Conventions
+## Primary Language & Frameworks
+- **Language**: Python (5,135 files, 99%+ of codebase)
+- **Infrastructure**: Docker, Docker Compose
+- **CI/CD**: GitHub Actions
+...
+```
+
+**3. Ask questions**
+
+```bash
+$ ag ask "What LLM backends does this project support?"
+Based on the context, the project supports NVIDIA API with Kimi K2.5.
+The architecture uses OpenAI-compatible format, supporting any endpoint
+including local LLMs via LiteLLM, NVIDIA NIM models, etc.
+```
+
+**4. Log decisions (no LLM needed)**
+
+```bash
+$ ag report "Auth module needs refactoring"
+Logged report to .antigravity/memory/reports.md
+
+$ ag log-decision "Use PostgreSQL" "Team has deep expertise"
+Logged decision to .antigravity/decisions/log.md
+```
+
+> Works with any OpenAI-compatible provider: **NVIDIA**, **OpenAI**, **Ollama**, **vLLM**, **LM Studio**, **Groq**, etc.
+
+---
+
 ## Documentation
 
 | | |
diff --git a/README_CN.md b/README_CN.md
@@ -269,6 +269,58 @@ result = swarm.execute("构建并审查一个计算器")
 
 ---
 
+## 实战演示：NVIDIA API + Kimi K2.5
+
+使用 [Moonshot Kimi K2.5](https://build.nvidia.com/moonshotai/kimi-k2-5) 通过 NVIDIA 免费 API 进行端到端测试。任何 OpenAI 兼容端点都可以同样使用。
+
+**1. 配置 `.env`**
+
+```bash
+OPENAI_BASE_URL=https://integrate.api.nvidia.com/v1
+OPENAI_API_KEY=nvapi-your-key-here
+OPENAI_MODEL=moonshotai/kimi-k2.5
+```
+
+**2. 扫描你的项目**
+
+```bash
+$ ag refresh --workspace .
+Updated .antigravity/conventions.md
+```
+
+Kimi K2.5 生成的输出：
+```markdown
+# Project Conventions
+## Primary Language & Frameworks
+- **Language**: Python (5,135 files, 99%+ of codebase)
+- **Infrastructure**: Docker, Docker Compose
+- **CI/CD**: GitHub Actions
+...
+```
+
+**3. 提问**
+
+```bash
+$ ag ask "这个项目支持哪些 LLM 后端？"
+根据上下文，项目支持通过 NVIDIA API 使用 Kimi K2.5。
+架构使用 OpenAI 兼容格式，支持任何端点，
+包括通过 LiteLLM 使用的本地 LLM、NVIDIA NIM 模型等。
+```
+
+**4. 记录决策（无需 LLM）**
+
+```bash
+$ ag report "认证模块需要重构"
+Logged report to .antigravity/memory/reports.md
+
+$ ag log-decision "使用 PostgreSQL" "团队有丰富经验"
+Logged decision to .antigravity/decisions/log.md
+```
+
+> 支持任何 OpenAI 兼容供应商：**NVIDIA**、**OpenAI**、**Ollama**、**vLLM**、**LM Studio**、**Groq** 等。
+
+---
+
 ## 文档
 
 | | |
diff --git a/README_ES.md b/README_ES.md
@@ -269,6 +269,58 @@ Ver [docs Sandbox](docs/es/SANDBOX.md).
 
 ---
 
+## Demo Real: NVIDIA API + Kimi K2.5
+
+Probado end-to-end con [Moonshot Kimi K2.5](https://build.nvidia.com/moonshotai/kimi-k2-5) via el tier gratuito de NVIDIA. Cualquier endpoint compatible con OpenAI funciona igual.
+
+**1. Configurar `.env`**
+
+```bash
+OPENAI_BASE_URL=https://integrate.api.nvidia.com/v1
+OPENAI_API_KEY=nvapi-your-key-here
+OPENAI_MODEL=moonshotai/kimi-k2.5
+```
+
+**2. Escanear tu proyecto**
+
+```bash
+$ ag refresh --workspace .
+Updated .antigravity/conventions.md
+```
+
+Salida generada por Kimi K2.5:
+```markdown
+# Project Conventions
+## Primary Language & Frameworks
+- **Language**: Python (5,135 files, 99%+ of codebase)
+- **Infrastructure**: Docker, Docker Compose
+- **CI/CD**: GitHub Actions
+...
+```
+
+**3. Hacer preguntas**
+
+```bash
+$ ag ask "¿Qué backends LLM soporta este proyecto?"
+Basado en el contexto, el proyecto soporta NVIDIA API con Kimi K2.5.
+La arquitectura usa formato compatible con OpenAI, soportando cualquier
+endpoint incluyendo LLMs locales via LiteLLM, modelos NVIDIA NIM, etc.
+```
+
+**4. Registrar decisiones (sin LLM)**
+
+```bash
+$ ag report "El módulo de auth necesita refactoring"
+Logged report to .antigravity/memory/reports.md
+
+$ ag log-decision "Usar PostgreSQL" "El equipo tiene experiencia profunda"
+Logged decision to .antigravity/decisions/log.md
+```
+
+> Funciona con cualquier proveedor compatible con OpenAI: **NVIDIA**, **OpenAI**, **Ollama**, **vLLM**, **LM Studio**, **Groq**, etc.
+
+---
+
 ## Documentación
 
 | | |
diff --git a/engine/antigravity_engine/hub/agents.py b/engine/antigravity_engine/hub/agents.py
@@ -11,10 +11,15 @@ def create_model(settings: "Settings") -> str:
     """Resolve an LLM model identifier from settings.
 
     Priority:
-    1. GOOGLE_API_KEY  → gemini/<model_name> via litellm
-    2. OPENAI_API_KEY  → <OPENAI_MODEL>
-    3. OPENAI_BASE_URL → <OPENAI_MODEL> (local Ollama etc.)
-    4. None            → raise ValueError
+    1. GOOGLE_API_KEY              → litellm/gemini/<model_name>
+    2. OPENAI_BASE_URL (any key)   → litellm/openai/<model> (custom endpoint)
+    3. OPENAI_API_KEY (no base)    → <OPENAI_MODEL> (standard OpenAI)
+    4. None                        → raise ValueError
+
+    When a custom OPENAI_BASE_URL is provided (e.g. NVIDIA, Ollama), the
+    model is routed through litellm so that the Agent SDK can reach the
+    non-standard endpoint.  The function also exports OPENAI_API_BASE for
+    litellm discovery.
 
     Args:
         settings: Application settings.
@@ -25,15 +30,22 @@ def create_model(settings: "Settings") -> str:
     Raises:
         ValueError: When no LLM backend is configured.
     """
+    import os
+
     if settings.GOOGLE_API_KEY:
         return f"litellm/gemini/{settings.GEMINI_MODEL_NAME}"
 
-    if settings.OPENAI_API_KEY:
-        return settings.OPENAI_MODEL
-
+    # Custom endpoint (NVIDIA, Ollama, etc.) — route through litellm
     if settings.OPENAI_BASE_URL:
+        os.environ.setdefault("OPENAI_API_BASE", settings.OPENAI_BASE_URL)
+        if settings.OPENAI_API_KEY:
+            os.environ.setdefault("OPENAI_API_KEY", settings.OPENAI_API_KEY)
         return f"litellm/openai/{settings.OPENAI_MODEL}"
 
+    # Standard OpenAI (no custom base URL)
+    if settings.OPENAI_API_KEY:
+        return settings.OPENAI_MODEL
+
     raise ValueError(
         "No LLM configured. Set GOOGLE_API_KEY, OPENAI_API_KEY, "
         "or OPENAI_BASE_URL in .env"
diff --git a/engine/tests/test_create_model.py b/engine/tests/test_create_model.py
@@ -32,19 +32,32 @@ def test_google_key_returns_litellm_gemini():
     assert "gemini-2.0-flash-exp" in result
 
 
-def test_openai_key_returns_model_name():
+def test_openai_key_only_returns_model_name():
+    """Standard OpenAI (key but no custom base URL) returns raw model name."""
     settings = _make_settings(OPENAI_API_KEY="sk-test")
     result = create_model(settings)
     assert result == "gpt-4o-mini"
 
 
-def test_ollama_base_url_returns_litellm_openai():
+def test_base_url_routes_through_litellm():
+    """Custom base URL (Ollama, NVIDIA, etc.) routes through litellm."""
     settings = _make_settings(OPENAI_BASE_URL="http://localhost:11434/v1")
     result = create_model(settings)
     assert result.startswith("litellm/openai/")
     assert "gpt-4o-mini" in result
 
 
+def test_base_url_with_key_routes_through_litellm():
+    """Custom base URL + API key (NVIDIA) routes through litellm, not raw."""
+    settings = _make_settings(
+        OPENAI_BASE_URL="https://integrate.api.nvidia.com/v1",
+        OPENAI_API_KEY="nvapi-test-key",
+        OPENAI_MODEL="moonshotai/kimi-k2.5",
+    )
+    result = create_model(settings)
+    assert result == "litellm/openai/moonshotai/kimi-k2.5"
+
+
 def test_no_config_raises_value_error():
     settings = _make_settings()
     with pytest.raises(ValueError, match="No LLM configured"):