Sapphire-TTS-Collection

本仓库收集/整理/学习语音合成技术相关资料. (可能含有部分 NLP 和其他语音相关技术) 仍在初步更新中

开源项目·Text-to-Speech

时间	名称	仓库	演示	论文
2024.12.13	CosyVoice2 @阿里巴巴	Github ModelScope		ArXiv PaperNote
2024.11.04	OuteTTS @OuteAI	Github HuggingFace HF Mirror	-	Blog
2024.10.20	MaskGCT @香港中文大学 (深圳) &广州趣玩网络科技	Github (Amphion) HuggingFace HF Mirror	Github.IO 趣玩科技	ArXiv PaperNote CodeReview
2024.10.08	F5-TTS @上海交通大学&剑桥大学 &吉利汽车研究院(宁波)	Github HuggingFace HF Mirror	Github.IO HF Space	ArXiv PaperNote CodeReview
2024.07.03	CosyVoice @阿里巴巴语音实验室	Github ModelScope		ArXiv PaperNote
2024.05.28	ChatTTS @2noise 团队	Github HuggingFace HF Mirror	Video
2024.02.20	MeloTTS @MIT&MyShell.AI&清华大学	Github HuggingFace HF Mirror
2024.02.13	Parler-TTS @HuggingFace (Reproduce)	Github HuggingFace HF Mirror	HF Space Demo Page	ArXiv
2024.01.15 (v1) 2024.08.07 (v2)	GPT-SoVITS @RVC-Boss (花儿不哭)	Github	Video
2023.11.29 2024.04.09 (v2)	OpenVoice @MIT&MyShell.AI&清华大学	Github		ArXiv
2023.10.10 2024.05.10 (v1.1) 2024.07.02 (v1.2) 2024.09.10 (v1.4) 2024.11.02 Paper	Fish-Speech @FishAudio	Github HuggingFace	Video Video ver1.1 Video ver1.2 Video ver1.4 Online	ArXiv
2023.09.06	Matcha-TTS @瑞典皇家理工学院	Github		ArXiv PaperNote
2023.07.21 2024.07.12	BERT-VITS2 @FishAudio	Github
2023.04.13	MassTTS @2noise 团队	Github	Video
2022.01.28	TorToise-TTS @neonbjb	Github	HF Space Demo Page	ArXiv PaperNote
2020.05.20	XTTS v2 @Coqui.AI	Github		ArXiv PaperNote
2017.11.14	PaddleSpeech @百度飞桨	Github

开源项目·Singing Voice Synthesis

DiffSinger Website

开源项目·Speech Interaction (语音交互)

2024.08.07 Moshi [Github]
- 开发团队: 法国 Kyutai 实验室
- 技术报告:
  - 2024.09.17 发布 ArXiv:2410.00037;
  - 2024.10.02 更新 v2 版本;
- 仓库创建: 2024.08.07
- 最近更新: 2025.03.03
- 开源程度: 权重 + 推理 (会发布一些训练代码但无具体时间, 不会发布预训练数据集)
- 开源内容:
  - Moshi v0.1 [HF]
    - 含 BF16/INT8/INT4 版本.
    - Speech Codec (Mimi): WavLM 通过余弦相似度蒸馏语义到第一个码本 Token, Split RVQ 重建由对抗损失训练.
    - Moshiko (Moshi 男性合成声音微调)
    - Moshika (Moshi 女性合成声音微调)
- 效果示例:
  - 在线网站
2024.08.10 VITA [Github]
- 开发团队: VITA Team (腾讯优图实验室 & 南京大学 & 厦门大学 & 中科院自动化所)
- 技术报告:
  - 2024.08.09 VITA ArXiv:2408.05211
    - 2024.09.10 更新 v2 版本;
  - 2025.01.03 VITA 1.5 ArXiv:2501.01957
    - 2025.01.16 更新 v2 版本;
    - 2025.01.21 更新 v3 版本.
- 仓库创建: 2024.08.10
- 最近更新: 2025.02.13
- 开源程度: 权重 + 推理 + 训练
- 开源内容:
  - 2024.09.06 发布 VITA [HF]
    - Visual Encoder (InternViT-300M-448px) + Visual Connector
    - Audio Encoder (4 CNN + 24 Transformer Blocks ~341M) + Audio Connector
    - VITA (Mixtral-8x7B-v0.1)
    - External TTS (TencentCloud API)
  - 2024.12.20 发布 VITA 1.5 [HF]
    - Vision Encoder (InternViT-300M) + Vision Adapter (2 MLP)
    - Speech Encoder (类似 Freeze-Omni 采用 Conv + 24 Transformer Blocks ~350M) + Speech Adapter (Conv 2x Downsample)
    - VITA 1.5 (Qwen2-7B): 输入多模态, 输出文本 Token
    - NAR Speech Decoder: 输入文本 Token, 输出语音 Token 初始分布;
    - AR Speech Decoder: 输入 NAR 信息, 输出语音 Token;
    - Codec Decoder (TiCodec): 输入语音 Token, 输出语音.
- 效果示例:
  - Github.IO
  - YouTube
  - ModelScope Demo
  - 特性: VITA 采用两个模型 Monitor 和 Generation 实现交互; 三阶段训练: 双语种指令微调, 视觉音频模态对齐, 多模态指令微调.
  - 特性: VITA 1.5 时延从 4 s 降低到 1.5 s; 三阶段训练: 视觉语言训练, 音频输入微调, 音频输出微调.
2024.08.29 Mini-Omni [Github]
- 开发团队: InspirAI & 清华大学
- 技术报告:
  - 2024.08.29 发布 ArXiv:2408.16725
  - 2024.08.30 更新 v2;
  - 2024.11.05 更新 v3;
- 仓库创建: 2024.08.29
- 最近更新: 2024.11.05
- 开源程度: 权重 + 推理 (训练不会开源, 但基于 litgpt 进行的修改)
- 开源内容:
  - Mini-Omni [HF] #TODO
  - VoiceAssistant-400K [HF]
- 效果示例:
  - HF Spaces
  - 特性: 仅在英语上训练, 由 Whisper 支持可理解多语种, 但仅能输出英语; 开源版本不支持 TTS Adapter.
2024.09.10 LLaMA-Omni [Github]
- 开发团队: 中国科学院 & 中国科学院大学 ICT@NLP 研究组
- 技术报告:
  - 2024.09.10 发布 ArXiv:2409.06666;
  - 2025.03.01 更新 v2 版本 ICLR2025.
- 仓库创建: 2024.09.10
- 最近更新: 2024.11.14
- 开源程度: 权重 + 推理
- 开源内容:
  - LLaMA-3.1-8B-Omni [HF]
    - LLaMA-3.1-8B-Instruct
    - Whisper-Large-V3
    - Unit-Based HiFi-GAN Vocoder (FairSeq ver.)
- 效果示例：
  - Replicate 平台
  - 特性: 时延 226 ms, 四卡训练少于三天, 同时生成文本和语音模态.
- 相关代码:
  - 训练复现: https://github.com/wntg/LLaMA-Omni
2024.09.30 Baichuan-Omni [Github]
- 开发团队: 百川智能 & 西湖大学 & 浙江大学
- 技术报告:
  - 2024.10.11 发布 ArXiv:2410.08565;
  - 2024.11.02 更新 v2 版本, 改名 Ocean-Omni;
  - 2024.11.05 更新 v3 版本;
  - 2024.12.27 更新 v4 版本, 改名 Baichuan-Omni.
- 仓库创建: 2024.09.30
- 最近更新: 2025.01.27
- 开源程度: 未开源
- 注: 后续版本发布, 本项目应已归档. 2025.01.25 发布 Baichuan-Omni-1.5 版本
2024.10.16 Mini-Omni2 [Github]
- 开发团队: 启元世界 & 清华大学
- 技术报告:
  - 2024.10.15 发布 ArXiv:2410.11190;
- 仓库创建: 2024.10.16
- 最近更新: 2025.01.16
- 开源程度: #TODO
- 开源内容:
  - Mini-Omni2 [HF]
- 效果示例:
  - 特性: 仅在英语上训练, 由 Whisper 支持可理解多语种, 但仅能输出英语;
2024.10.24 GLM-4-Voice [Github]
- 开发团队: 智谱 AI & 清华大学
- 技术报告:
  - 2024.12.03 发布 ArXiv:2412.02612;
- 仓库创建: 2024.10.24
- 最近更新: 2024.12.05
- 开源程度: 权重 + 推理
- 开源内容:
  - GLW-4-Voice-9B [HF]
    - GLM-4-Voice-Tokenizer [HF]
      - Whisper Encoder + VQ, 在 ASR 数据上监督训练;
    - GLM-4-Voice-9B: 在 GLM-4-9B 基础上进行语音模态的预训练和对齐.
    - GLM-4-Voice-Decoder [HF]
      - CosyVoice Flow-Matching, 输入语音 Token
- 效果示例:
  - ModelScope
2024.11.04 Freeze-Omni [Github]
- 开发团队: VITA Team & 腾讯优图实验室 & ASLP(NPU) & 南京大学
- 技术报告:
  - 2024.11.01 发布 ArXiv:2411.00774;
- 仓库创建: 2024.11.04
- 最近更新:
- 开源程度:
- 开源内容: #TODO
- 效果示例:
  - Github.IO
2025.01.23 Baichuan-Omni-1.5 [Github]
- 开发团队:
- 技术报告:
  - 2025.01.26 发布 ArXiv:2501.15368
- 仓库创建: 2025.01.23
- 最近更新: 2025.02.08
- 开源程度: 权重 + 推理
- 开源内容:
  - Baichuan-Omni-1.5-Base [HF]: 未 SFT;
    - Visual Encoder (NaViT + Qwen2-VL-7B Weight)
    - Baichuan-Audio Tokenizer (8 RVQ)
    - Text Tokenizer
    - Qwen2.5-7B LLM: 输入多模态 Token, 输出文本和语音模态.
    - HiFi-GAN Vocoder (CosyVoice2 ver.)
  - Baichuan-Omni-1.5 [HF]: 全模态指令训练;
  - OpenMM-Medical [HF]: 医学理解基准, 从公开医学图像数据集收集得到 88,996 张图像;
  - OpenAudio-Bench [HF]: 音频基准, 含 4 个公开评测集 (LLaMA Question, Web QA, TriviaQA, AlpacaEval) + 自建语音逻辑评测集 2701 条.
2025.02.24 Baichuan-Audio [Github]
- 开发团队:
- 技术报告:
  - 2025.02.24 发布 ArXiv:2502.17239
- 仓库创建: 2025.02.24
- 最近更新: 2025.02.28
- 开源程度: 权重 + 推理
- 开源内容:
  - Baichuan-Audio-Base [HF]: 未 SFT;
    - Baichuan-Audio Tokenizer (Whisper Large + 8 RVQ): 输入语音, 输出语音 Token, 由梅尔频谱重构和预训练 LLM 进行声学+语义监督训练;
    - Qwen2.5-7B Audio LLM: 输入离散音频 Token, 输出模态交错 Token, 根据特殊 Token 可切换输出模态;
    - Flow-Matching Audio Decoder: 输入语音 Token, 输出梅尔频谱图, 在 24KHz 音频训练;
    - HiFi-GAN Vocoder (CosyVoice2 ver.): 输入梅尔频谱图, 输出语音;
  - Baichuan-Audio-Instruct [HF]
  - OpenAudio-Bench [HF]: 音频基准.

Name		Name	Last commit message	Last commit date
Latest commit History 2,840 Commits
.github/workflows		.github/workflows
Blogs		Blogs
Books/2024.06.30_Foundations_of_LLMs@ZJU-LLMs		Books/2024.06.30_Foundations_of_LLMs@ZJU-LLMs
Datasets		Datasets
Evaluations		Evaluations
Models		Models
Modules		Modules
OpenSource		OpenSource
Surveys		Surveys
ToC		ToC
.gitignore		.gitignore
Alphabet.md		Alphabet.md
Authors-Papers.csv		Authors-Papers.csv
Links.md		Links.md
Models.csv		Models.csv
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Sapphire-TTS-Collection

推荐链接

同类项目

开源项目·Text-to-Speech

开源项目·Singing Voice Synthesis

开源项目·Speech Interaction (语音交互)

About

Uh oh!

Releases

Packages

Uh oh!

Languages

SapphireLab/Sapphire-TTS-Collection

Folders and files

Latest commit

History

Repository files navigation

Sapphire-TTS-Collection

推荐链接

同类项目

开源项目·Text-to-Speech

开源项目·Singing Voice Synthesis

开源项目·Speech Interaction (语音交互)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages