Skip to content

sincatter/omni-infer

 
 

Repository files navigation

Omni-Infer:基于昇腾的超大规模MoE模型推理加速技术

中文 | View English

社区新闻(更多活动可参考社区活动日历) 🔥

  • [2025/08] Omni社区与LFAI&Data基金会亚太区域用户组,启动线上技术交流活动Omni-Talk,可参考社区活动的详细安排
  • [2025/08] 社区正在筹划与LFAI&Data基金会亚太区域用户组,以及腾讯公司团队一起,于8月30日下午在深圳举办vLLM Shenzhen Meetup,可移步访问活动详情
  • [2025/09] 社区将积极参与GOSIM中国峰会
往期活动

Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集,完全兼容业界目前主流的开源大模型推理框架(比如vLLM等),旨在提供高性能、企业级推理能力,具备原生支持且功能集持续扩展。

核心特性

  • 企业级低延迟P/D调度:支持xPyD调度及大规模分布式PD部署的横向扩展,确保最低延迟。详情请参考Global Proxy设计
  • 请求级负载均衡:针对所有序列长度优化预填充(prefill)和解码(decode)阶段,实现最大吞吐量与低延迟。
  • 优化的MoE专家部署:支持EP144/EP288配置的大规模混合专家(Mixture of Experts, MoE)模型。
  • MoE专家负载均衡:具备分层非均匀冗余和近实时动态专家放置功能,提升资源利用效率。详情请参考OmniPlacement设计
  • 高级注意力机制优化:专为LLM、MLLM和MoE模型定制,增强性能与可扩展性。

开源社区

有关Omni-Infer社区运作、活动、治理相关的信息,请访问我们的社区运作仓库

High-Level 架构图

image

快速开始

PD分离快速部署示例请参考指南。如需将Omni_Infer集成到项目中,请参考安装指南文档获取详细的设置说明和API参考。

贡献指南

我们欢迎您为Omni_Infer贡献代码!请查看贡献指南,并通过Gitee Issues提交拉取请求或问题。

许可证

Omni_Infer基于MIT许可证发布。

About

Omni_Infer is a suite of inference accelerators designed for the Ascend NPU platform, offering native support and an expanding feature set.

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages

  • Python 79.4%
  • C 8.2%
  • C++ 6.7%
  • Shell 4.5%
  • Go 0.7%
  • Rust 0.2%
  • Other 0.3%