首先您关于SecoustiCodec的工作非常值得学习,模型兼具低比特率和流式处理能力。最近我在运行inference.py进行推理测试时,遇到几个问题想向您请教,希望能得到您的指点:
- 关于输出文件:推理过程会生成acoustic.wav和semantic.wav两个音频文件,想确认一下,其中semantic.wav才是模型最终重构出的音频对吗?另外,我用您给的demo作测试,发现我得到的音频没您给出的效果好,对应的音频文件我放在附件了,还麻烦您听一下;
- 关于0.27kbps下的听感:在0.27kbps比特率下,我观察到重构后的音频(包括您提供的demo和我自己测试的音频)普遍带有一种“沉闷鼻音”的感觉。想请教一下,这种现象是否主要由于比特率过低导致的?还是可能与模型结构或训练目标有关?
- 关于跨语种和方言的泛化能力:我用法语、俄语、西班牙语以及国内几种方言进行了测试,整体效果都相当不错。想了解一下,这种良好的泛化能力是得益于训练数据覆盖了这些语种和口音,还是模型本身对不同语言/口音的特征具有较好的鲁棒性?
- 关于带噪音频的重构表现:在测试带噪音频时,我发现重构后的音频质量会明显下降(附件中我上传了一个示例,音频末尾添加了一小段白噪声,供您参考)。我原本以为模型可能会重构出类似的带噪版本(毕竟模型应该是无法区分音频和背景噪音的),但实际输出会有明显的失真,甚至丢字。请问这是不是Neural Audio Codec面对带噪场景必然存在的问题?
非常期待您的回复!感激不尽!
13.wav
13_official.wav
13_semantic.wav
noisy_gauss_20.wav
noisy_gauss_20_semantic.wav
首先您关于SecoustiCodec的工作非常值得学习,模型兼具低比特率和流式处理能力。最近我在运行inference.py进行推理测试时,遇到几个问题想向您请教,希望能得到您的指点:
非常期待您的回复!感激不尽!
13.wav
13_official.wav
13_semantic.wav
noisy_gauss_20.wav
noisy_gauss_20_semantic.wav