Skip to content

是否可以接受引入torch.distributed以外的集合通信库? #71

@hanhan-networking

Description

@hanhan-networking

最近在将ckpt engine引入到其他系统中,遇到一个通信组的问题:两组资源相对隔离,都有一个由torch.distributed创建的global 通信域,现在引入ckpt engine后,无法从ckpt engine视角看到包括两组资源的global 通信组。我们准备为ckpt engine提供一个pr,引入vllm/sglang(两者都有,到时候以安装的依赖导入)中的支持statelessProcessGroup集合通信库,基于此构建global通信域,不知社区是否会接受?或者有没有其他建议?感谢。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions