关于开源库推理代码运行的一些疑问

首先您关于SecoustiCodec的工作非常值得学习，模型兼具低比特率和流式处理能力。最近我在运行inference.py进行推理测试时，遇到几个问题想向您请教，希望能得到您的指点：
1. 关于输出文件：推理过程会生成acoustic.wav和semantic.wav两个音频文件，想确认一下，其中semantic.wav才是模型最终重构出的音频对吗？另外，我用您给的demo作测试，发现我得到的音频没您给出的效果好，对应的音频文件我放在附件了，还麻烦您听一下；
2. 关于0.27kbps下的听感：在0.27kbps比特率下，我观察到重构后的音频（包括您提供的demo和我自己测试的音频）普遍带有一种“沉闷鼻音”的感觉。想请教一下，这种现象是否主要由于比特率过低导致的？还是可能与模型结构或训练目标有关？
3. 关于跨语种和方言的泛化能力：我用法语、俄语、西班牙语以及国内几种方言进行了测试，整体效果都相当不错。想了解一下，这种良好的泛化能力是得益于训练数据覆盖了这些语种和口音，还是模型本身对不同语言/口音的特征具有较好的鲁棒性？
4. 关于带噪音频的重构表现：在测试带噪音频时，我发现重构后的音频质量会明显下降（附件中我上传了一个示例，音频末尾添加了一小段白噪声，供您参考）。我原本以为模型可能会重构出类似的带噪版本（毕竟模型应该是无法区分音频和背景噪音的），但实际输出会有明显的失真，甚至丢字。请问这是不是Neural Audio Codec面对带噪场景必然存在的问题？

非常期待您的回复！感激不尽！

[13.wav](https://github.com/user-attachments/files/25562372/13.wav)
[13_official.wav](https://github.com/user-attachments/files/25562371/13_official.wav)
[13_semantic.wav](https://github.com/user-attachments/files/25562370/13_semantic.wav)

[noisy_gauss_20.wav](https://github.com/user-attachments/files/25562378/noisy_gauss_20.wav)
[noisy_gauss_20_semantic.wav](https://github.com/user-attachments/files/25562377/noisy_gauss_20_semantic.wav)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于开源库推理代码运行的一些疑问 #4

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

关于开源库推理代码运行的一些疑问 #4

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions