中文 | View English
社区新闻(更多活动可参考社区活动日历) 🔥
- [2025/08] Omni社区与LFAI&Data基金会亚太区域用户组,启动线上技术交流活动Omni-Talk,可参考社区活动的详细安排
- [2025/08] 社区正在筹划与LFAI&Data基金会亚太区域用户组,以及腾讯公司团队一起,于8月30日下午在深圳举办vLLM Shenzhen Meetup,可移步访问活动详情
- [2025/09] 社区将积极参与GOSIM中国峰会
往期活动
- [2025/08] 社区将积极参与CCF开源大会
- [2025/07] 社区正在筹划于7月28日下午在上海举办首次线下Meetup,可移步访问活动详情
- [2025/07] 社区的MTP SIG计划在7月的第三周召开首次SIG例会,可参考SIG会议的详细安排
- [2025/07] 社区的PD分离、EP负载均衡、算子与图三个SIG计划在7月的第二周召开首次SIG例会,有兴趣与会的开发者请见三个SIG分别的会议安排:PD分离SIG会议安排,EP负载均衡SIG会议安排,算子与图SIG会议安排.
- [2025/07] 2025年7月5日,在苏州举办的OpenInfra基金会Meetup将有Omni-infer议题分享,详情请见社区活动页面
Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集,完全兼容业界目前主流的开源大模型推理框架(比如vLLM等),旨在提供高性能、企业级推理能力,具备原生支持且功能集持续扩展。
- 企业级低延迟P/D调度:支持xPyD调度及大规模分布式PD部署的横向扩展,确保最低延迟。详情请参考Global Proxy设计。
- 请求级负载均衡:针对所有序列长度优化预填充(prefill)和解码(decode)阶段,实现最大吞吐量与低延迟。
- 优化的MoE专家部署:支持EP144/EP288配置的大规模混合专家(Mixture of Experts, MoE)模型。
- MoE专家负载均衡:具备分层非均匀冗余和近实时动态专家放置功能,提升资源利用效率。详情请参考OmniPlacement设计。
- 高级注意力机制优化:专为LLM、MLLM和MoE模型定制,增强性能与可扩展性。
有关Omni-Infer社区运作、活动、治理相关的信息,请访问我们的社区运作仓库
PD分离快速部署示例请参考指南。如需将Omni_Infer集成到项目中,请参考安装指南和文档获取详细的设置说明和API参考。
我们欢迎您为Omni_Infer贡献代码!请查看贡献指南,并通过Gitee Issues提交拉取请求或问题。
Omni_Infer基于MIT许可证发布。
