Use lower case for backend name.

bobboli · bobboli · commit 08fa4ed767e3 · 2025-10-27T10:45:09.000Z
Signed-off-by: Bo Li &lt;22713281+bobboli@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/modules/fused_moe/fused_moe_trtllm_gen.py b/tensorrt_llm/_torch/modules/fused_moe/fused_moe_trtllm_gen.py
@@ -113,13 +113,13 @@ def __init__(
         self.alltoall_workspace = None
         self.alltoall_prepare_workspace = None
         if self.enable_alltoall:
-            if self.moe_alltoall_backend == "MnnvlLatency":
+            if self.moe_alltoall_backend == "mnnvllatency":
                 MnnvlMemory.initialize()
                 self.alltoall_workspace = MnnvlMoe.get_moe_workspaces(
                     model_config.mapping)
                 self.alltoall_prepare_workspace = MnnvlMoe.get_moe_prepare_workspace(
                     model_config.mapping)
-            elif self.moe_alltoall_backend == "MnnvlThroughput":
+            elif self.moe_alltoall_backend == "mnnvlthroughput":
                 workspace_mb = int(
                     os.environ.get("TRTLLM_MOE_A2A_WORKSPACE_MB", "512"))
                 self.moe_a2a = MoeAlltoAll(
@@ -149,9 +149,9 @@ def enable_alltoall(self):
 
     @cached_property
     def moe_alltoall_backend(self):
-        # "MnnvlLatency" (default) or "MnnvlThroughput"
+        # "mnnvllatency" (default) or "mnnvlthroughput"
         return os.environ.get("TRTLLM_MOE_ALLTOALL_BACKEND",
-                              "MnnvlLatency").strip().lower()
+                              "mnnvllatency").strip().lower()
 
     def _check_configs(self):
         assert self.has_deepseek_fp8_block_scales \
@@ -320,7 +320,7 @@ def forward_impl(
             else:
                 token_final_scales = token_final_scales.to(torch.float32)
 
-            if self.moe_alltoall_backend == "MnnvlLatency":
+            if self.moe_alltoall_backend == "mnnvllatency":
                 assert self.alltoall_prepare_workspace is not None, "alltoall_prepare_workspace should be initialized"
                 alltoall_info, _ = MnnvlMoe.mnnvl_moe_alltoallv_prepare_without_allgather(
                     token_selected_experts,
@@ -360,7 +360,7 @@ def forward_impl(
 
                 if token_final_scales is not None:
                     token_final_scales = token_final_scales.to(torch.bfloat16)
-            elif self.moe_alltoall_backend == "MnnvlThroughput":
+            elif self.moe_alltoall_backend == "mnnvlthroughput":
                 if x_sf is not None:
                     x_sf = x_sf.view(x_row,
                                      ceil_div(x_col, self.scaling_vector_size))
@@ -667,7 +667,7 @@ def forward_impl(
 
         # Combine results if using alltoall
         if self.enable_alltoall:
-            if self.moe_alltoall_backend == "MnnvlLatency":
+            if self.moe_alltoall_backend == "mnnvllatency":
                 if alltoall_info is not None:
                     final_hidden_states = MnnvlMoe.mnnvl_moe_alltoallv_combine(
                         final_hidden_states,
@@ -678,7 +678,7 @@ def forward_impl(
                         top_k=top_k,
                         token_count=token_count,
                     )
-            elif self.moe_alltoall_backend == "MnnvlThroughput":
+            elif self.moe_alltoall_backend == "mnnvlthroughput":
                 hidden = final_hidden_states.shape[-1]
                 payload = final_hidden_states.view(
                     self.ep_size, self.moe_a2a.max_num_tokens_per_rank, hidden)