Update avaliable. Click RELOAD to update.
📱 安装应用到主屏幕,获得更好体验
目录

OpenBMB VoxCPM2:2B 参数开源 TTS,支持 30 种语言、声音设计和语音克隆

概览

OpenBMB(清华团队)开源的 VoxCPM2 是一个 Tokenizer-Free 端到端语音合成系统,采用扩散自回归架构,跳过离散 Token 化,直接在连续语音表示上生成声音。

基础数据:2B 参数,200 万+ 小时多语言训练数据,23,663 个 GitHub Star,Apache-2.0 开源可商用。

项目地址:https://github.com/OpenBMB/VoxCPM

为什么值得关注

传统的 TTS 系统大多分两步走:先把语音转成离散 Token,再用语言模型生成。VoxCPM 的差异在于完全跳过 Token 化这一步——直接生成连续的语音表示。这种做法有两个好处:

  1. 更自然的韵律——不被离散 Token 的量化误差限制,生成的声音更连贯
  2. 更丰富的表现力——能捕捉到用 Token 表示容易丢失的微细声音特征

VoxCPM2 是基于 MiniCPM-4 骨干网络的重大升级。

三大核心能力

1. 🎨 Voice Design(声音设计)

这是最让人眼前一亮的功能——仅凭自然语言描述就能创造全新的声音,完全不需要参考音频。

from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

# 用文字描述创造新声音
wav = model.generate(
    text="你好,欢迎收听今天的播客节目。",
    voice_attr="A warm, deep middle-aged male voice, calm and authoritative.",
)

可控制的维度包括:性别、年龄、语调、情感、语速等。这意味着你可以”设计”一个理想的主播声音,而不需要找一个真人录音。

2. 🎛️ Controllable Cloning(可控克隆)

给一段短参考音频,克隆这个声音——并且可以额外控制情感和表现力方向。

# 克隆声音 + 风格指导
wav = model.generate(
    text="这条新闻非常重要,请各位认真收听。",
    reference_audio="ref_speaker.wav",
    voice_attr="Serious and urgent news anchor style",
)

这是实际应用中最常用的场景——拿到一个参考发音人的声音,然后控制它用不同的情感和风格来表达。

3. 🎙️ Ultimate Cloning(终极克隆)

提供参考音频和对应的文本转录——模型无缝衔接参考音频继续合成,忠实保留每一个声音细节(音色、节奏、情感、风格)。这个能力继承自 VoxCPM1.5。

多语言支持

VoxCPM2 支持 30 种语言,包括:

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、
德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、
韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、
斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语

另外还支持 9 种中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。

输入文本时不需要指定语言标签——模型会自动识别并合成对应语言的语音。

技术亮点

Tokenizer-Free 架构

传统 TTS 流水线:语音 → Tokenizer → 离散 Token → LLM 生成 → Vocoder → 波形。每一步都有信息损失。

VoxCPM 的路径:文本 → 扩散自回归模型 → 连续语音表示 → AudioVAE 解码 → 48kHz 波形。少了 Token 量化步骤,信息保留更完整。

AudioVAE V2 非对称编码

编码端用 16kHz 输入(兼容常见录音设备),解码端直接输出 48kHz 工作室级音质。内置超分辨率能力,不需要外挂升频器。

实时推理性能

硬件加速方案RTF(实时率)
NVIDIA RTX 4090原生~0.3
NVIDIA RTX 4090Nano-vLLM / vLLM-Omni~0.13

RTF(Real-Time Factor)小于 1 意味着生成速度快于实时播放。~0.13 表示生成 1 秒音频只需要 0.13 秒。

vLLM-Omni 是官方支持的 omni-modal 推理引擎,提供 PagedAttention 加速和 OpenAI 兼容 API。

快速上手

安装极其简单——一行命令:

pip install voxcpm

基础用法:语音合成

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

生产部署:vLLM-Omni 服务

# 安装 vLLM-Omni 并启动服务
pip install vllm-omni
vllm serve openbmb/VoxCPM2

# 通过 OpenAI 兼容 API 调用
curl http://localhost:8000/v1/audio/generations \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/VoxCPM2",
    "input": "你好,欢迎使用 VoxCPM2",
    "voice_attr": "A friendly female voice with a warm tone"
  }'

模型版本对比

版本参数数据语言核心特性
VoxCPM-0.5B0.5B~50k 小时中英2025.09 首发,#1 HuggingFace Trending
VoxCPM1.51.5B~50k 小时中英SFT + LoRA 微调,#1 GitHub Trending
VoxCPM22B200万+ 小时30 种Voice Design, Controllable Cloning, 48kHz

从 VoxCPM1.5 到 VoxCPM2 的跃升是最显著的——语言从 2 种扩展到 30 种,数据量从 5 万小时跳到 200 万小时以上,音质从 16kHz 提升到 48kHz。

适用场景

生态与社区

总结

VoxCPM2 是目前开源的 TTS 系统中能力最全面的之一。2B 参数、30 种语言、Voice Design、48kHz 音质,加上 Apache-2.0 可商用——三个维度打下来基本没有短板。

如果说有什么遗憾,那就是推理对 GPU 有要求(推荐 RTX 4090),而且在 RTF ~0.3 下对于大规模部署来说硬件成本不低。但考虑到 vLLM-Omni 的加速方案已经把 RTF 压到 ~0.13,配合 OpenAI 兼容 API,做产品级接入是可行的。

对于内容创作者、多语言产品团队和语音交互开发者来说,这是目前开源领域最值得关注的一个 TTS 项目。

版权所有,本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处:https://www.wangjun.dev//2026/06/openbmb-voxcpm2-tts/