minor upd

IwakuraRein · IwakuraRein · commit b39aa3baa1cb · 2025-12-01T14:00:35.000-08:00
Signed-off-by: Siyuan Fu &lt;siyuanf@nvidia.com&gt;
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
@@ -2043,16 +2043,10 @@ def forward(
                 )
                 decode_q0[..., : ql_nope_shape[2]].copy_(decode_ql_nope)
                 decode_q0[..., ql_nope_shape[2] :].copy_(decode_q_pe)
-                decode_q = torch.empty(
-                    decode_q_shape,
-                    device=decode_ql_nope.device,
-                    dtype=torch.float8_e4m3fn,
-                )
 
                 decode_q, _ = ops.scaled_fp8_quant(
                     decode_q0.view(decode_q_shape[0], -1),
                     layer._q_scale,
-                    output=decode_q.view(decode_q_shape[0], -1),
                 )
                 decode_q = decode_q.view(decode_q_shape)
             else: