Skip to content

[inference] 推理题目 #7

Open
wlf-darkmatter wants to merge 3 commits into
Eco-Sphere:mainfrom
wlf-darkmatter:main
Open

[inference] 推理题目 #7
wlf-darkmatter wants to merge 3 commits into
Eco-Sphere:mainfrom
wlf-darkmatter:main

Conversation

@wlf-darkmatter

Copy link
Copy Markdown

Ascend Skill Contest 参赛提交


题目3: Torch NPU 算子 API 查询与单算子用例搭建

Skill名称

torch-npu-ops-skill

算子或API

npu_fusion_attention、npu_fused_infer_attention_score 和 torch_npu.npu_prompt_flash_attention

版本组合

CANN 8.5.0
PyTorch / torch_npu 2.7.1

Prompt

/torch-npu-ops-skill  请对比 npu_fusion_attention、npu_fused_infer_attention_score 和 torch_npu.npu_prompt_flash_attention 这三个 FA 算子在 BF16 场景下、Seq 长度从 1024 到 32768 时的性能差异,并给出单算子测试方案、关键入参说明、结果解读以及版本兼容性注意事项。

测试结果(截图)

image

@wlf-darkmatter

Copy link
Copy Markdown
Author

感觉还不太聪明,一开始都读不懂昇腾文档,尝试自作聪明去用函数原型来定义,我加了多层防护之后才能正常生成用 example 的代码来做测试。

但还有个确定,他不太明白怎么做测试,和 CPU 做性能对比意义不大,应该和 torch 在 npu 侧的非融合算子作对比,这个后面会继续优化

@wlf-darkmatter wlf-darkmatter changed the title [inference] 推理题目 3 torch-npu-ops-skill [inference] 推理题目 Mar 16, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant