[None][feat] add flag for EPLB to force using GDRCopy (#8650)

dongxuy04 · web-flow · commit 00eaf5f88379 · 2025-10-29T13:33:26.000+08:00
Signed-off-by: Dongxu Yang &lt;78518666+dongxuy04@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/common/envUtils.cpp b/cpp/tensorrt_llm/common/envUtils.cpp
@@ -495,4 +495,9 @@ int getEnvMoeA2ACombineBlockSize()
     return kBlock;
 }
 
+bool getEnvEplbForceGdrcopy()
+{
+    return getBoolEnv("TRTLLM_EPLB_FORCE_GDRCOPY");
+}
+
 } // namespace tensorrt_llm::common
diff --git a/cpp/tensorrt_llm/common/envUtils.h b/cpp/tensorrt_llm/common/envUtils.h
@@ -147,4 +147,6 @@ int getEnvMoeA2ACombineBlockSize();
 
 bool getEnvKVCacheTransferAllBlocksForWindow();
 
+bool getEnvEplbForceGdrcopy();
+
 } // namespace tensorrt_llm::common
diff --git a/cpp/tensorrt_llm/runtime/moeLoadBalancer/hostAccessibleDeviceAllocator.cpp b/cpp/tensorrt_llm/runtime/moeLoadBalancer/hostAccessibleDeviceAllocator.cpp
@@ -27,6 +27,7 @@
 #include "topologyDetector.h"
 
 #include "tensorrt_llm/common/cudaUtils.h"
+#include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/common/logger.h"
 
 namespace tensorrt_llm::runtime
@@ -169,7 +170,8 @@ bool HostAccessibleDeviceAllocator::mAllowManagedFallback = false;
 
 bool HostAccessibleDeviceAllocator::isSupported()
 {
-    if (TopologyDetector::getInstance().getCurrentGpuMemoryNumaId() >= 0)
+    if (!tensorrt_llm::common::getEnvEplbForceGdrcopy()
+        && TopologyDetector::getInstance().getCurrentGpuMemoryNumaId() >= 0)
     {
         // we are on systems that GPU memory is also a NUMA node.
         return true;
@@ -195,7 +197,16 @@ void HostAccessibleDeviceAllocator::init()
     }
 
     TLLM_CUDA_CHECK(cudaGetDevice(&mDevId));
-    mGpuMemNumaId = TopologyDetector::getInstance().getCurrentGpuMemoryNumaId();
+    if (tensorrt_llm::common::getEnvEplbForceGdrcopy())
+    {
+        mGpuMemNumaId = -1;
+        TLLM_LOG_INFO("Force using GDRCopy for EPLB, ignore NUMA node for GPU memory.");
+    }
+    else
+    {
+        mGpuMemNumaId = TopologyDetector::getInstance().getCurrentGpuMemoryNumaId();
+    }
+
     if (mGpuMemNumaId < 0)
     {
         // We only use GDRCopy when there is no NUMA node for GPU memory.

Original file line number	Diff line number	Diff line change
`@@ -495,4 +495,9 @@ int getEnvMoeA2ACombineBlockSize()`
`495`	`495`	`return kBlock;`
`496`	`496`	`}`
`497`	`497`
	`498`	`+bool getEnvEplbForceGdrcopy()`
	`499`	`+{`
	`500`	`+ return getBoolEnv("TRTLLM_EPLB_FORCE_GDRCOPY");`
	`501`	`+}`
	`502`	`+`
`498`	`503`	`} // namespace tensorrt_llm::common`