feat: Add inputAudioTranscription support to Java ADK

jinnigu · jinnigu · commit f2d240612f29 · 2025-09-27T23:32:02.000-07:00
diff --git a/core/src/main/java/com/google/adk/runner/Runner.java b/core/src/main/java/com/google/adk/runner/Runner.java
@@ -310,25 +310,24 @@ public Flowable<Event> runAsync(Session session, Content newMessage, RunConfig r
   private InvocationContext newInvocationContextForLive(
       Session session, Optional<LiveRequestQueue> liveRequestQueue, RunConfig runConfig) {
     RunConfig.Builder runConfigBuilder = RunConfig.builder(runConfig);
-    if (!CollectionUtils.isNullOrEmpty(runConfig.responseModalities())
-        && liveRequestQueue.isPresent()) {
+    if (liveRequestQueue.isPresent()) {
       // Default to AUDIO modality if not specified.
       if (CollectionUtils.isNullOrEmpty(runConfig.responseModalities())) {
         runConfigBuilder.setResponseModalities(
             ImmutableList.of(new Modality(Modality.Known.AUDIO)));
         if (runConfig.outputAudioTranscription() == null) {
           runConfigBuilder.setOutputAudioTranscription(AudioTranscriptionConfig.builder().build());
         }
-        if (runConfig.inputAudioTranscription() == null) {
-          runConfigBuilder.setInputAudioTranscription(AudioTranscriptionConfig.builder().build());
-        }
       } else if (!runConfig.responseModalities().contains(new Modality(Modality.Known.TEXT))) {
         if (runConfig.outputAudioTranscription() == null) {
           runConfigBuilder.setOutputAudioTranscription(AudioTranscriptionConfig.builder().build());
         }
-        if (runConfig.inputAudioTranscription() == null) {
-          runConfigBuilder.setInputAudioTranscription(AudioTranscriptionConfig.builder().build());
-        }
+      }
+      // Parity with Python: only auto-enable input transcription for multi-agent live scenarios
+      // so that text can be passed between agents. Otherwise leave it as-is.
+      boolean isMultiAgent = !this.agent.subAgents().isEmpty();
+      if (isMultiAgent && runConfig.inputAudioTranscription() == null) {
+        runConfigBuilder.setInputAudioTranscription(AudioTranscriptionConfig.builder().build());
       }
     }
     return newInvocationContext(