Skip to content

SapphireLab/Sapphire-TTS-Collection

Repository files navigation

Sapphire-TTS-Collection

本仓库收集/整理/学习语音合成技术相关资料. (可能含有部分 NLP 和其他语音相关技术) 仍在初步更新中

腾讯文档汇总表

推荐链接

同类项目

开源项目·Text-to-Speech

时间 名称 仓库 演示 论文
2024.12.13 CosyVoice2
@阿里巴巴
Github
Star
ModelScope
ArXiv
PaperNote
2024.11.04 OuteTTS
@OuteAI
Github
Star
HuggingFace
HF Mirror
- Blog
2024.10.20 MaskGCT
@香港中文大学 (深圳)
&广州趣玩网络科技
Github (Amphion)
Star
HuggingFace
HF Mirror
Github.IO
趣玩科技
ArXiv
PaperNote
CodeReview
2024.10.08 F5-TTS
@上海交通大学&剑桥大学
&吉利汽车研究院(宁波)
Github
Star
HuggingFace
HF Mirror
Github.IO
HF Space
ArXiv
PaperNote
CodeReview
2024.07.03 CosyVoice
@阿里巴巴语音实验室
Github
Star
ModelScope
ArXiv
PaperNote
2024.05.28 ChatTTS
@2noise 团队
Github
Star
HuggingFace
HF Mirror
Video
2024.02.20 MeloTTS
@MIT&MyShell.AI&清华大学
Github
Star
HuggingFace
HF Mirror
2024.02.13 Parler-TTS
@HuggingFace (Reproduce)
Github
Star
HuggingFace
HF Mirror
HF Space
Demo Page
ArXiv
2024.01.15 (v1)
2024.08.07 (v2)
GPT-SoVITS
@RVC-Boss (花儿不哭)
Github
Star
Video
2023.11.29
2024.04.09 (v2)
OpenVoice
@MIT&MyShell.AI&清华大学
Github
Star
ArXiv
2023.10.10
2024.05.10 (v1.1)
2024.07.02 (v1.2)
2024.09.10 (v1.4)
2024.11.02 Paper
Fish-Speech
@FishAudio
Github
Star
HuggingFace
Video
Video ver1.1
Video ver1.2
Video ver1.4
Online
ArXiv
2023.09.06 Matcha-TTS
@瑞典皇家理工学院
Github
Star
ArXiv
PaperNote
2023.07.21
2024.07.12
BERT-VITS2
@FishAudio
Github
Star
2023.04.13 MassTTS
@2noise 团队
Github
stars
Video
2022.01.28 TorToise-TTS
@neonbjb
Github
Star
HF Space
Demo Page
ArXiv
PaperNote
2020.05.20 XTTS v2
@Coqui.AI
Github
Star
ArXiv
PaperNote
2017.11.14 PaddleSpeech
@百度飞桨
Github
Star

开源项目·Singing Voice Synthesis

开源项目·Speech Interaction (语音交互)

  • 2024.08.07 Moshi [Github] Star

  • 2024.08.10 VITA [Github] Star

    • 开发团队: VITA Team (腾讯优图实验室 & 南京大学 & 厦门大学 & 中科院自动化所)
    • 技术报告:
    • 仓库创建: 2024.08.10
    • 最近更新: 2025.02.13
    • 开源程度: 权重 + 推理 + 训练
    • 开源内容:
      • 2024.09.06 发布 VITA [HF]
        • Visual Encoder (InternViT-300M-448px) + Visual Connector
        • Audio Encoder (4 CNN + 24 Transformer Blocks ~341M) + Audio Connector
        • VITA (Mixtral-8x7B-v0.1)
        • External TTS (TencentCloud API)
      • 2024.12.20 发布 VITA 1.5 [HF]
        • Vision Encoder (InternViT-300M) + Vision Adapter (2 MLP)
        • Speech Encoder (类似 Freeze-Omni 采用 Conv + 24 Transformer Blocks ~350M) + Speech Adapter (Conv 2x Downsample)
        • VITA 1.5 (Qwen2-7B): 输入多模态, 输出文本 Token
        • NAR Speech Decoder: 输入文本 Token, 输出语音 Token 初始分布;
        • AR Speech Decoder: 输入 NAR 信息, 输出语音 Token;
        • Codec Decoder (TiCodec): 输入语音 Token, 输出语音.
    • 效果示例:
      • Github.IO
      • YouTube
      • ModelScope Demo
      • 特性: VITA 采用两个模型 Monitor 和 Generation 实现交互; 三阶段训练: 双语种指令微调, 视觉音频模态对齐, 多模态指令微调.
      • 特性: VITA 1.5 时延从 4 s 降低到 1.5 s; 三阶段训练: 视觉语言训练, 音频输入微调, 音频输出微调.
  • 2024.08.29 Mini-Omni [Github] Star

    • 开发团队: InspirAI & 清华大学
    • 技术报告:
      • 2024.08.29 发布 ArXiv:2408.16725
      • 2024.08.30 更新 v2;
      • 2024.11.05 更新 v3;
    • 仓库创建: 2024.08.29
    • 最近更新: 2024.11.05
    • 开源程度: 权重 + 推理 (训练不会开源, 但基于 litgpt 进行的修改)
    • 开源内容:
    • 效果示例:
      • HF Spaces
      • 特性: 仅在英语上训练, 由 Whisper 支持可理解多语种, 但仅能输出英语; 开源版本不支持 TTS Adapter.
  • 2024.09.10 LLaMA-Omni [Github] Star

  • 2024.09.30 Baichuan-Omni [Github] Star

    • 开发团队: 百川智能 & 西湖大学 & 浙江大学
    • 技术报告:
      • 2024.10.11 发布 ArXiv:2410.08565;
      • 2024.11.02 更新 v2 版本, 改名 Ocean-Omni;
      • 2024.11.05 更新 v3 版本;
      • 2024.12.27 更新 v4 版本, 改名 Baichuan-Omni.
    • 仓库创建: 2024.09.30
    • 最近更新: 2025.01.27
    • 开源程度: 未开源
    • 注: 后续版本发布, 本项目应已归档. 2025.01.25 发布 Baichuan-Omni-1.5 版本
  • 2024.10.16 Mini-Omni2 [Github] Star

    • 开发团队: 启元世界 & 清华大学
    • 技术报告:
    • 仓库创建: 2024.10.16
    • 最近更新: 2025.01.16
    • 开源程度: #TODO
    • 开源内容:
    • 效果示例:
      • 特性: 仅在英语上训练, 由 Whisper 支持可理解多语种, 但仅能输出英语;
  • 2024.10.24 GLM-4-Voice [Github] Star

  • 2024.11.04 Freeze-Omni [Github] Star

    • 开发团队: VITA Team & 腾讯优图实验室 & ASLP(NPU) & 南京大学
    • 技术报告:
    • 仓库创建: 2024.11.04
    • 最近更新:
    • 开源程度:
    • 开源内容: #TODO
    • 效果示例:
  • 2025.01.23 Baichuan-Omni-1.5 [Github] Star

    • 开发团队:
    • 技术报告:
    • 仓库创建: 2025.01.23
    • 最近更新: 2025.02.08
    • 开源程度: 权重 + 推理
    • 开源内容:
      • Baichuan-Omni-1.5-Base [HF]: 未 SFT;
        • Visual Encoder (NaViT + Qwen2-VL-7B Weight)
        • Baichuan-Audio Tokenizer (8 RVQ)
        • Text Tokenizer
        • Qwen2.5-7B LLM: 输入多模态 Token, 输出文本和语音模态.
        • HiFi-GAN Vocoder (CosyVoice2 ver.)
      • Baichuan-Omni-1.5 [HF]: 全模态指令训练;
      • OpenMM-Medical [HF]: 医学理解基准, 从公开医学图像数据集收集得到 88,996 张图像;
      • OpenAudio-Bench [HF]: 音频基准, 含 4 个公开评测集 (LLaMA Question, Web QA, TriviaQA, AlpacaEval) + 自建语音逻辑评测集 2701 条.
  • 2025.02.24 Baichuan-Audio [Github] Star

    • 开发团队:
    • 技术报告:
    • 仓库创建: 2025.02.24
    • 最近更新: 2025.02.28
    • 开源程度: 权重 + 推理
    • 开源内容:
      • Baichuan-Audio-Base [HF]: 未 SFT;
        • Baichuan-Audio Tokenizer (Whisper Large + 8 RVQ): 输入语音, 输出语音 Token, 由梅尔频谱重构和预训练 LLM 进行声学+语义监督训练;
        • Qwen2.5-7B Audio LLM: 输入离散音频 Token, 输出模态交错 Token, 根据特殊 Token 可切换输出模态;
        • Flow-Matching Audio Decoder: 输入语音 Token, 输出梅尔频谱图, 在 24KHz 音频训练;
        • HiFi-GAN Vocoder (CosyVoice2 ver.): 输入梅尔频谱图, 输出语音;
      • Baichuan-Audio-Instruct [HF]
      • OpenAudio-Bench [HF]: 音频基准.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages