本仓库收集/整理/学习语音合成技术相关资料. (可能含有部分 NLP 和其他语音相关技术) 仍在初步更新中
- Speech.Zone
- 语音之家
- 课题组 X-LANCE@SJTU
- 课题组 ASLP@NPU
- 课题组 Speech@NTU
- Awesome Audio Plaza by Metame AI
- Speech Trident by 李宏毅 Team
- WavChat by 浙江大学 (赵洲 Team) & 微软 & 阿里巴巴 & 腾讯优图实验室
- Neural Codec & Speech Language Models by LqNoob
- Awesome MLLM by VITA Team
- Awesome Large Speech Model by Huang Can'an
- VoiceBench by 新加坡国立大学
- Awesome Controllable Speech Synthesis by 香港科技大学 (广州)
- Awesome-Multimodal-Next-Token-Prediction by Liang Chen (Leader)
时间 | 名称 | 仓库 | 演示 | 论文 |
---|---|---|---|---|
2024.12.13 | CosyVoice2 @阿里巴巴 |
Github ModelScope |
ArXiv PaperNote |
|
2024.11.04 | OuteTTS @OuteAI |
Github HuggingFace HF Mirror |
- | Blog |
2024.10.20 | MaskGCT @香港中文大学 (深圳) &广州趣玩网络科技 |
Github (Amphion) HuggingFace HF Mirror |
Github.IO 趣玩科技 |
ArXiv PaperNote CodeReview |
2024.10.08 | F5-TTS @上海交通大学&剑桥大学 &吉利汽车研究院(宁波) |
Github HuggingFace HF Mirror |
Github.IO HF Space |
ArXiv PaperNote CodeReview |
2024.07.03 | CosyVoice @阿里巴巴语音实验室 |
Github ModelScope |
ArXiv PaperNote |
|
2024.05.28 | ChatTTS @2noise 团队 |
Github HuggingFace HF Mirror |
Video | |
2024.02.20 | MeloTTS @MIT&MyShell.AI&清华大学 |
Github HuggingFace HF Mirror |
||
2024.02.13 | Parler-TTS @HuggingFace (Reproduce) |
Github HuggingFace HF Mirror |
HF Space Demo Page |
ArXiv |
2024.01.15 (v1) 2024.08.07 (v2) |
GPT-SoVITS @RVC-Boss (花儿不哭) |
Github |
Video | |
2023.11.29 2024.04.09 (v2) |
OpenVoice @MIT&MyShell.AI&清华大学 |
Github |
ArXiv | |
2023.10.10 2024.05.10 (v1.1) 2024.07.02 (v1.2) 2024.09.10 (v1.4) 2024.11.02 Paper |
Fish-Speech @FishAudio |
Github HuggingFace |
Video Video ver1.1 Video ver1.2 Video ver1.4 Online |
ArXiv |
2023.09.06 | Matcha-TTS @瑞典皇家理工学院 |
Github |
ArXiv PaperNote |
|
2023.07.21 2024.07.12 |
BERT-VITS2 @FishAudio |
Github |
||
2023.04.13 | MassTTS @2noise 团队 |
Github |
Video | |
2022.01.28 | TorToise-TTS @neonbjb |
Github |
HF Space Demo Page |
ArXiv PaperNote |
2020.05.20 | XTTS v2 @Coqui.AI |
Github |
ArXiv PaperNote |
|
2017.11.14 | PaddleSpeech @百度飞桨 |
Github |
-
2024.08.07 Moshi [Github]
- 开发团队: 法国 Kyutai 实验室
- 技术报告:
- 2024.09.17 发布 ArXiv:2410.00037;
- 2024.10.02 更新 v2 版本;
- 仓库创建: 2024.08.07
- 最近更新: 2025.03.03
- 开源程度: 权重 + 推理 (会发布一些训练代码但无具体时间, 不会发布预训练数据集)
- 开源内容:
- Moshi v0.1 [HF]
- 含 BF16/INT8/INT4 版本.
- Speech Codec (Mimi): WavLM 通过余弦相似度蒸馏语义到第一个码本 Token, Split RVQ 重建由对抗损失训练.
- Moshiko (Moshi 男性合成声音微调)
- Moshika (Moshi 女性合成声音微调)
- Moshi v0.1 [HF]
- 效果示例:
-
2024.08.10 VITA [Github]
- 开发团队: VITA Team (腾讯优图实验室 & 南京大学 & 厦门大学 & 中科院自动化所)
- 技术报告:
- 2024.08.09 VITA ArXiv:2408.05211
- 2024.09.10 更新 v2 版本;
- 2025.01.03 VITA 1.5 ArXiv:2501.01957
- 2025.01.16 更新 v2 版本;
- 2025.01.21 更新 v3 版本.
- 2024.08.09 VITA ArXiv:2408.05211
- 仓库创建: 2024.08.10
- 最近更新: 2025.02.13
- 开源程度: 权重 + 推理 + 训练
- 开源内容:
- 2024.09.06 发布 VITA [HF]
- Visual Encoder (InternViT-300M-448px) + Visual Connector
- Audio Encoder (4 CNN + 24 Transformer Blocks ~341M) + Audio Connector
- VITA (Mixtral-8x7B-v0.1)
- External TTS (TencentCloud API)
- 2024.12.20 发布 VITA 1.5 [HF]
- Vision Encoder (InternViT-300M) + Vision Adapter (2 MLP)
- Speech Encoder (类似 Freeze-Omni 采用 Conv + 24 Transformer Blocks ~350M) + Speech Adapter (Conv 2x Downsample)
- VITA 1.5 (Qwen2-7B): 输入多模态, 输出文本 Token
- NAR Speech Decoder: 输入文本 Token, 输出语音 Token 初始分布;
- AR Speech Decoder: 输入 NAR 信息, 输出语音 Token;
- Codec Decoder (TiCodec): 输入语音 Token, 输出语音.
- 2024.09.06 发布 VITA [HF]
- 效果示例:
- Github.IO
- YouTube
- ModelScope Demo
- 特性: VITA 采用两个模型 Monitor 和 Generation 实现交互; 三阶段训练: 双语种指令微调, 视觉音频模态对齐, 多模态指令微调.
- 特性: VITA 1.5 时延从 4 s 降低到 1.5 s; 三阶段训练: 视觉语言训练, 音频输入微调, 音频输出微调.
-
2024.08.29 Mini-Omni [Github]
- 开发团队: InspirAI & 清华大学
- 技术报告:
- 2024.08.29 发布 ArXiv:2408.16725
- 2024.08.30 更新 v2;
- 2024.11.05 更新 v3;
- 仓库创建: 2024.08.29
- 最近更新: 2024.11.05
- 开源程度: 权重 + 推理 (训练不会开源, 但基于 litgpt 进行的修改)
- 开源内容:
- 效果示例:
- HF Spaces
- 特性: 仅在英语上训练, 由 Whisper 支持可理解多语种, 但仅能输出英语; 开源版本不支持 TTS Adapter.
-
2024.09.10 LLaMA-Omni [Github]
- 开发团队: 中国科学院 & 中国科学院大学 ICT@NLP 研究组
- 技术报告:
- 2024.09.10 发布 ArXiv:2409.06666;
- 2025.03.01 更新 v2 版本 ICLR2025.
- 仓库创建: 2024.09.10
- 最近更新: 2024.11.14
- 开源程度: 权重 + 推理
- 开源内容:
- LLaMA-3.1-8B-Omni [HF]
- LLaMA-3.1-8B-Instruct
- Whisper-Large-V3
- Unit-Based HiFi-GAN Vocoder (FairSeq ver.)
- LLaMA-3.1-8B-Omni [HF]
- 效果示例:
- Replicate 平台
- 特性: 时延 226 ms, 四卡训练少于三天, 同时生成文本和语音模态.
- 相关代码:
-
2024.09.30 Baichuan-Omni [Github]
- 开发团队: 百川智能 & 西湖大学 & 浙江大学
- 技术报告:
- 2024.10.11 发布 ArXiv:2410.08565;
- 2024.11.02 更新 v2 版本, 改名 Ocean-Omni;
- 2024.11.05 更新 v3 版本;
- 2024.12.27 更新 v4 版本, 改名 Baichuan-Omni.
- 仓库创建: 2024.09.30
- 最近更新: 2025.01.27
- 开源程度: 未开源
- 注: 后续版本发布, 本项目应已归档. 2025.01.25 发布 Baichuan-Omni-1.5 版本
-
2024.10.16 Mini-Omni2 [Github]
- 开发团队: 启元世界 & 清华大学
- 技术报告:
- 2024.10.15 发布 ArXiv:2410.11190;
- 仓库创建: 2024.10.16
- 最近更新: 2025.01.16
- 开源程度: #TODO
- 开源内容:
- 效果示例:
- 特性: 仅在英语上训练, 由 Whisper 支持可理解多语种, 但仅能输出英语;
-
2024.10.24 GLM-4-Voice [Github]
- 开发团队: 智谱 AI & 清华大学
- 技术报告:
- 2024.12.03 发布 ArXiv:2412.02612;
- 仓库创建: 2024.10.24
- 最近更新: 2024.12.05
- 开源程度: 权重 + 推理
- 开源内容:
- GLW-4-Voice-9B [HF]
- GLM-4-Voice-Tokenizer [HF]
- Whisper Encoder + VQ, 在 ASR 数据上监督训练;
- GLM-4-Voice-9B: 在 GLM-4-9B 基础上进行语音模态的预训练和对齐.
- GLM-4-Voice-Decoder [HF]
- CosyVoice Flow-Matching, 输入语音 Token
- GLM-4-Voice-Tokenizer [HF]
- GLW-4-Voice-9B [HF]
- 效果示例:
-
2024.11.04 Freeze-Omni [Github]
- 开发团队: VITA Team & 腾讯优图实验室 & ASLP(NPU) & 南京大学
- 技术报告:
- 2024.11.01 发布 ArXiv:2411.00774;
- 仓库创建: 2024.11.04
- 最近更新:
- 开源程度:
- 开源内容: #TODO
- 效果示例:
-
2025.01.23 Baichuan-Omni-1.5 [Github]
- 开发团队:
- 技术报告:
- 2025.01.26 发布 ArXiv:2501.15368
- 仓库创建: 2025.01.23
- 最近更新: 2025.02.08
- 开源程度: 权重 + 推理
- 开源内容:
- Baichuan-Omni-1.5-Base [HF]: 未 SFT;
- Visual Encoder (NaViT + Qwen2-VL-7B Weight)
- Baichuan-Audio Tokenizer (8 RVQ)
- Text Tokenizer
- Qwen2.5-7B LLM: 输入多模态 Token, 输出文本和语音模态.
- HiFi-GAN Vocoder (CosyVoice2 ver.)
- Baichuan-Omni-1.5 [HF]: 全模态指令训练;
- OpenMM-Medical [HF]: 医学理解基准, 从公开医学图像数据集收集得到 88,996 张图像;
- OpenAudio-Bench [HF]: 音频基准, 含 4 个公开评测集 (LLaMA Question, Web QA, TriviaQA, AlpacaEval) + 自建语音逻辑评测集 2701 条.
- Baichuan-Omni-1.5-Base [HF]: 未 SFT;
-
2025.02.24 Baichuan-Audio [Github]
- 开发团队:
- 技术报告:
- 2025.02.24 发布 ArXiv:2502.17239
- 仓库创建: 2025.02.24
- 最近更新: 2025.02.28
- 开源程度: 权重 + 推理
- 开源内容:
- Baichuan-Audio-Base [HF]: 未 SFT;
- Baichuan-Audio Tokenizer (Whisper Large + 8 RVQ): 输入语音, 输出语音 Token, 由梅尔频谱重构和预训练 LLM 进行声学+语义监督训练;
- Qwen2.5-7B Audio LLM: 输入离散音频 Token, 输出模态交错 Token, 根据特殊 Token 可切换输出模态;
- Flow-Matching Audio Decoder: 输入语音 Token, 输出梅尔频谱图, 在 24KHz 音频训练;
- HiFi-GAN Vocoder (CosyVoice2 ver.): 输入梅尔频谱图, 输出语音;
- Baichuan-Audio-Instruct [HF]
- OpenAudio-Bench [HF]: 音频基准.
- Baichuan-Audio-Base [HF]: 未 SFT;