whisper 支持in-flight batch 了吗 #710

wangjxxxhi12 · 2025-02-13T09:07:10Z

看代码好像不支持，但是好像有一个in-flight 的commit

wangjxxxhi12 · 2025-02-14T06:47:56Z

看起来确实是还没有实现，@yuekaizhang 有计划实现吗

yuekaizhang · 2025-02-14T06:53:59Z

现在的代码是支持的哦，默认是 python bindings 版本的 infligh batch, cpp 版本的 infligh batch 在这里 https://github.com/triton-inference-server/tensorrtllm_backend/blob/main/docs/whisper.md

wangjxxxhi12 · 2025-02-17T06:30:47Z

我测了下python bindings 版本的，好像遇到了eot_id 也没有返回，还在decoding，这个是正常的吗，感觉如果是正常的这个 infligh batch 好像就没有意义了 @yuekaizhang

yuekaizhang · 2025-02-17T06:46:58Z

我测了下python bindings 版本的，好像遇到了eot_id 也没有返回，还在decoding，这个是正常的吗，感觉如果是正常的这个 infligh batch 好像就没有意义了 @yuekaizhang

嗯，sherpa/triton/whisper 现在的实现不会立即返回，但是这个 request 不会再参与以后 batch 的计算了。对吞吐提升还是有帮助的。

wangjxxxhi12 · 2025-02-17T10:33:28Z

嗯，sherpa/triton/whisper 现在的实现不会立即返回，但是这个 request 不会再参与以后 batch 的计算了。对吞吐提升还是有帮助的。

不会再参与以后 batch 的计算了是指iteration-level batching 过程吗，比如生成的tokenlist[1,2,3, eot_id, eot_id, eot_id, eot_id],第二个eot_id 不是通过推理得到的，而是直接补冲的对吗 @yuekaizhang

Provide feedback