Omni-Infer：基于昇腾的超大规模MoE模型推理加速技术

中文 | View English

社区新闻(更多活动可参考社区活动日历) 🔥

[2025/08] Omni社区与LFAI&Data基金会亚太区域用户组，启动线上技术交流活动Omni-Talk，可参考社区活动的详细安排
[2025/08] 社区正在筹划与LFAI&Data基金会亚太区域用户组，以及腾讯公司团队一起，于8月30日下午在深圳举办vLLM Shenzhen Meetup，可移步访问活动详情
[2025/09] 社区将积极参与GOSIM中国峰会

往期活动

[2025/08] 社区将积极参与CCF开源大会
[2025/07] 社区正在筹划于7月28日下午在上海举办首次线下Meetup，可移步访问活动详情
[2025/07] 社区的MTP SIG计划在7月的第三周召开首次SIG例会，可参考SIG会议的详细安排
[2025/07] 社区的PD分离、EP负载均衡、算子与图三个SIG计划在7月的第二周召开首次SIG例会，有兴趣与会的开发者请见三个SIG分别的会议安排：PD分离SIG会议安排,EP负载均衡SIG会议安排,算子与图SIG会议安排.
[2025/07] 2025年7月5日，在苏州举办的OpenInfra基金会Meetup将有Omni-infer议题分享，详情请见社区活动页面

Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集，完全兼容业界目前主流的开源大模型推理框架（比如vLLM等），旨在提供高性能、企业级推理能力，具备原生支持且功能集持续扩展。

核心特性

企业级低延迟P/D调度：支持xPyD调度及大规模分布式PD部署的横向扩展，确保最低延迟。详情请参考Global Proxy设计。
请求级负载均衡：针对所有序列长度优化预填充（prefill）和解码（decode）阶段，实现最大吞吐量与低延迟。
优化的MoE专家部署：支持EP144/EP288配置的大规模混合专家（Mixture of Experts, MoE）模型。
MoE专家负载均衡：具备分层非均匀冗余和近实时动态专家放置功能，提升资源利用效率。详情请参考OmniPlacement设计。
高级注意力机制优化：专为LLM、MLLM和MoE模型定制，增强性能与可扩展性。

开源社区

有关Omni-Infer社区运作、活动、治理相关的信息，请访问我们的社区运作仓库

High-Level 架构图

快速开始

PD分离快速部署示例请参考指南。如需将Omni_Infer集成到项目中，请参考安装指南和文档获取详细的设置说明和API参考。

贡献指南

我们欢迎您为Omni_Infer贡献代码！请查看贡献指南，并通过Gitee Issues提交拉取请求或问题。

许可证

Omni_Infer基于MIT许可证发布。

Name		Name	Last commit message	Last commit date
Latest commit History 2,406 Commits
.workflow		.workflow
benchmarks		benchmarks
build		build
deploy/k8s/charts/omniinfer		deploy/k8s/charts/omniinfer
docs		docs
infer_engines		infer_engines
omni		omni
tests		tests
tools		tools
.gitignore		.gitignore
CONTRIBUTION.md		CONTRIBUTION.md
CONTRIBUTION_en.md		CONTRIBUTION_en.md
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
README_en.md		README_en.md
ROADMAP.md		ROADMAP.md
Third Party Open Source Software Notice		Third Party Open Source Software Notice
pyproject.toml		pyproject.toml
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Omni-Infer：基于昇腾的超大规模MoE模型推理加速技术

核心特性

开源社区

High-Level 架构图

快速开始

贡献指南

许可证

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Omni-Infer：基于昇腾的超大规模MoE模型推理加速技术

核心特性

开源社区

High-Level 架构图

快速开始

贡献指南

许可证

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages