最近在将ckpt engine引入到其他系统中,遇到一个通信组的问题:两组资源相对隔离,都有一个由torch.distributed创建的global 通信域,现在引入ckpt engine后,无法从ckpt engine视角看到包括两组资源的global 通信组。我们准备为ckpt engine提供一个pr,引入vllm/sglang(两者都有,到时候以安装的依赖导入)中的支持statelessProcessGroup集合通信库,基于此构建global通信域,不知社区是否会接受?或者有没有其他建议?感谢。