clean

Andrew Xia · Andrew Xia · commit 60a350e872d8 · 2025-12-01T10:44:55.000-08:00
Signed-off-by: Andrew Xia &lt;axia@fb.com&gt;
diff --git a/vllm/entrypoints/context.py b/vllm/entrypoints/context.py
@@ -243,7 +243,6 @@ def __init__(
         self.chat_template_content_format = chat_template_content_format
 
     def append_output(self, output: RequestOutput) -> None:
-        # TODO: output.prompt / output.prompt_token_id doesn't update correctly
         self.num_prompt_tokens = len(output.prompt_token_ids or [])
         self.num_cached_tokens = output.num_cached_tokens or 0
         self.num_output_tokens += len(output.outputs[0].token_ids or [])
diff --git a/vllm/entrypoints/openai/parser/responses_parser.py b/vllm/entrypoints/openai/parser/responses_parser.py
@@ -37,7 +37,6 @@ def __init__(
             response_messages
         )
         self.num_init_messages = len(response_messages)
-        self.tokens: list[int] = []
         self.tokenizer = tokenizer
         self.request = request
 
@@ -49,7 +48,6 @@ def process(self, output: CompletionOutput) -> "ResponsesParser":
             output.text, request=self.request
         )
         if reasoning_content:
-            # HACK
             self.response_messages.append(
                 ResponseReasoningItem(
                     type="reasoning",
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
@@ -1779,84 +1779,6 @@ class ResponseInProgressEvent(OpenAIResponseInProgressEvent):
 )
 
 
-BatchRequestInputBody: TypeAlias = (
-    ChatCompletionRequest | EmbeddingRequest | ScoreRequest | RerankRequest
-)
-
-
-class BatchRequestInput(OpenAIBaseModel):
-    """
-    The per-line object of the batch input file.
-
-    NOTE: Currently only the `/v1/chat/completions` endpoint is supported.
-    """
-
-    # A developer-provided per-request id that will be used to match outputs to
-    # inputs. Must be unique for each request in a batch.
-    custom_id: str
-
-    # The HTTP method to be used for the request. Currently only POST is
-    # supported.
-    method: str
-
-    # The OpenAI API relative URL to be used for the request. Currently
-    # /v1/chat/completions is supported.
-    url: str
-
-    # The parameters of the request.
-    body: BatchRequestInputBody
-
-    @field_validator("body", mode="plain")
-    @classmethod
-    def check_type_for_url(cls, value: Any, info: ValidationInfo):
-        # Use url to disambiguate models
-        url: str = info.data["url"]
-        if url == "/v1/chat/completions":
-            return ChatCompletionRequest.model_validate(value)
-        if url == "/v1/embeddings":
-            return TypeAdapter(EmbeddingRequest).validate_python(value)
-        if url.endswith("/score"):
-            return ScoreRequest.model_validate(value)
-        if url.endswith("/rerank"):
-            return RerankRequest.model_validate(value)
-        return TypeAdapter(BatchRequestInputBody).validate_python(value)
-
-
-class BatchResponseData(OpenAIBaseModel):
-    # HTTP status code of the response.
-    status_code: int = 200
-
-    # An unique identifier for the API request.
-    request_id: str
-
-    # The body of the response.
-    body: (
-        ChatCompletionResponse
-        | EmbeddingResponse
-        | ScoreResponse
-        | RerankResponse
-        | None
-    ) = None
-
-
-class BatchRequestOutput(OpenAIBaseModel):
-    """
-    The per-line object of the batch output and error files
-    """
-
-    id: str
-
-    # A developer-provided per-request id that will be used to match outputs to
-    # inputs.
-    custom_id: str
-
-    response: BatchResponseData | None
-
-    # For requests that failed with a non-HTTP error, this will contain more
-    # information on the cause of the failure.
-    error: Any | None
-
-
 class TokenizeCompletionRequest(OpenAIBaseModel):
     model: str | None = None
     prompt: str
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
@@ -18,6 +18,11 @@
 from starlette.datastructures import Headers
 from typing_extensions import TypeIs
 
+from vllm.entrypoints.context import (
+    HarmonyContext,
+    ParsableContext,
+    StreamingHarmonyContext,
+)
 from vllm.entrypoints.pooling.classify.protocol import (
     ClassificationChatRequest,
     ClassificationCompletionRequest,
@@ -39,7 +44,6 @@
     ScoreRequest,
     ScoreResponse,
 )
-from vllm.entrypoints.context import HarmonyContext, StreamingHarmonyContext
 
 if sys.version_info >= (3, 12):
     from typing import TypedDict
@@ -1319,26 +1323,15 @@ async def _generate_with_builtin_tools(
                 prompt_token_ids = context.render_for_completion()
                 engine_prompt = EngineTokensPrompt(prompt_token_ids=prompt_token_ids)
                 request_prompt = prompt_token_ids
-            else:
-                [
-                    request,
-                    tokenizer,
-                    messages,
-                    tool_dicts,
-                    tool_parser,
-                    chat_template,
-                    chat_template_content_format,
-                ] = context.render_for_completion()
-
-                # HACK
+            elif isinstance(context, ParsableContext):
                 request_prompts, engine_prompts = await self._render_next_turn(
-                    request,
-                    tokenizer,
-                    messages,
-                    tool_dicts,
-                    tool_parser,
-                    chat_template,
-                    chat_template_content_format,
+                    context.request,
+                    context.tokenizer,
+                    context.messages,
+                    context.tool_dicts,
+                    context.tool_parser,
+                    context.chat_template,
+                    context.chat_template_content_format,
                 )
                 engine_prompt = engine_prompts[0]
                 request_prompt = request_prompts[0]
diff --git a/vllm/entrypoints/responses_utils.py b/vllm/entrypoints/responses_utils.py
@@ -26,6 +26,7 @@
     ChatCompletionMessageParam,
     ResponseInputOutputItem,
 )
+from vllm.utils import random_uuid
 
 
 def make_response_output_items_from_parsable_context(
@@ -39,7 +40,7 @@ def make_response_output_items_from_parsable_context(
         else:
             if isinstance(output_messages[-1], ResponseFunctionToolCall):
                 mcp_message = McpCall(
-                    id="lol",
+                    id=f"mcp_{random_uuid()}",
                     arguments=output_messages[-1].arguments,
                     name=output_messages[-1].name,
                     server_label=output_messages[-1].name,  # TODO

Original file line number	Diff line number	Diff line change
`@@ -37,7 +37,6 @@ def __init__(`
`37`	`37`	`response_messages`
`38`	`38`	`)`
`39`	`39`	`self.num_init_messages = len(response_messages)`
`40`		`- self.tokens: list[int] = []`
`41`	`40`	`self.tokenizer = tokenizer`
`42`	`41`	`self.request = request`
`43`	`42`
`@@ -49,7 +48,6 @@ def process(self, output: CompletionOutput) -> "ResponsesParser":`
`49`	`48`	`output.text, request=self.request`
`50`	`49`	`)`
`51`	`50`	`if reasoning_content:`
`52`		`- # HACK`
`53`	`51`	`self.response_messages.append(`
`54`	`52`	`ResponseReasoningItem(`
`55`	`53`	`type="reasoning",`