continuedev · sestinj · Oct 12, 2025 · Sep 22, 2025 · Oct 8, 2025 · Oct 12, 2025
@@ -117,8 +117,19 @@ export class OpenAIApi implements BaseLlmApi {
         signal,
       },
     );
+    let lastChunkWithUsage: ChatCompletionChunk | undefined;
     for await (const result of response) {
-      yield result;
+      // Check if this chunk contains usage information
+      if (result.usage) {
+        // Store it to emit after all content chunks
+        lastChunkWithUsage = result;
+      } else {
+        yield result;
+      }
+    }
+    // Emit the usage chunk at the end if we have one
+    if (lastChunkWithUsage) {
+      yield lastChunkWithUsage;
     }
   }
   async completionNonStream(

@@ -207,6 +207,23 @@ export function testChat(
     const completion = response.choices[0].message.content;
     expect(typeof completion).toBe("string");
     expect(completion?.length).toBeGreaterThan(0);
+
+    if (options?.expectUsage === true) {
+      expect(response.usage).toBeDefined();
+      expect(response.usage!.completion_tokens).toBeGreaterThan(0);
+      expect(response.usage!.prompt_tokens).toBeGreaterThan(0);
+      // Gemini 2.5 models have thinking tokens, so total_tokens >= prompt + completion
+      // Other models should have total_tokens = prompt + completion
+      if (model.includes("gemini-2.5") || model.includes("gemini-2.0")) {
+        expect(response.usage!.total_tokens).toBeGreaterThanOrEqual(
+          response.usage!.prompt_tokens + response.usage!.completion_tokens,
+        );
+      } else {
+        expect(response.usage!.total_tokens).toEqual(
+          response.usage!.prompt_tokens + response.usage!.completion_tokens,
+        );
+      }
+    }
   });
 
   test("should acknowledge system message in chat", async () => {