模型选型指南
面对不断更新的模型列表,记不住具体名字没关系。本文教你看懂每个模型的关键指标,然后根据自己的需求去匹配——语言、实时性、硬件、时间戳……筛一圈,能用的模型就那几个。
📌 所有模型都是 ONNX 格式,在
manyspeech中首次使用时会自动下载。
一、ASR 语音识别模型
1. 六个关键指标:看懂模型,就会敲命令
每个模型表格里都有这几列。弄明白它们,你就知道该选什么、命令怎么写。
标点为什么可以忽略? (中英文场景)
- 因为不管模型自带标点与否,
manyspeech默认都会调用标点恢复模型(--punc)给输出加上标点。你不需要为“标点=否”而担心。
麦克风选 online,文件选 offline
一般情况下,这样配置是推荐的。当然也可以这样搭配:
一个最基础的命令例子(假设你已经选好了一个叫 some-model 的模型):
⚠️
asr子命令必须带-i,要么-i file要么-i mic,不能省略。不写--model时程序会用一个内置默认模型,不一定适合你的场景,建议手动指定。
2. 模型名称里还有更多信息
模型名称本身就是一份“迷你规格书”。除了表格里的指标,名称还会透露更多细节。
当你看到
distil-whisper-xxx,它比同规模的whisper-xxx更快、更小,适合资源受限场景。
当你看到xxx-cantonese-onnx或xxx-wenetspeech-yue,说明它在粤语上做过微调,比通用模型更准。 当你看到xxx-onnx-opt,它通常比xxx-onnx表现更好。
3. 选型四步法:按你的需求筛选
第一步:你主要说什么语言?
在表格里找到“支持语种”列,筛选出包含你所需语言的模型。
- 普通话:优先找语种标记为
zh或中文的模型 - 中英混杂:找标记为
zh-en或中英的模型 - 粤语:找标记为
yue或粤语的模型(或者名称里带cantonese/yue的) - 英语:找标记为
en或英文的模型,或者distil-whisper-*-en等 - 日语/韩语/泰语/俄语等:找对应语言标记的模型(如
ja,ko,th,ru) - 全球多种语言:找标记为
多语言、multi或支持语种数量多的模型(如 Whisper 系列支持 99~106 种)
越是专门针对某语言的模型,在该语言上精度通常越高。多语言模型方便但可能略逊于专用模型。
看到finetune或特定后缀(如-belle、-wenetspeech),说明该模型在某个垂直领域(医疗、对话、方言)做过微调,如果你的场景匹配,优先考虑。
第二步:要实时还是离线?
看“类型”列:
第三步:你的硬件什么水平?
看“精度后缀”和模型名称中的“规模”:
int8量化版体积减少 50%-75%,速度提升 2~4 倍,精度损失通常 <1%,强烈推荐。
distil-模型比同规模原版更快更小,也是资源受限的好选择。
第四步:需要生成字幕吗?
在不使用vad模型的情况下:
- 需要 SRT/VTT 字幕 → 必须选“时间戳 = 是”的模型(表格中该列标记为“是”,或名称含
timestamp) - 不需要字幕 → 无视时间戳指标,任何模型都可以
在使用vad模型时:
- 模型的时间戳指标不是必需的,你甚至还可以仅用online模型,就可以生成带时间戳的字幕。
标点不需要你操心,程序会自动加上。所以“标点”这一列可以完全忽略。
额外需求:热词定制
如果你希望提升某些特定词汇(品牌名、人名、专业术语)的识别率,可以找名称含 seaco 的模型(SeACo-Paraformer),它支持热词激励。
4. 常用命令模板(填上你选的模型就行)
二、VAD 语音活动检测模型
1 可用模型
2 选型建议
- 安静环境:使用默认
alifsmnvad-onnx即可。 - 嘈杂环境(风扇、马路、多人杂谈):切换为
silero-vad-v6-onnx。
3 常用命令
三、Punc 标点恢复模型
1 可用模型
2 说明
- ASR 中默认自动启用该模型为识别结果添加标点,通常无需手动干预。
- 如需手动调用或测试,可使用
punc子命令。
3 常用命令
四、AudioSep 音频分离模型(规划中)
该功能正在开发中,目前暂无可用模型。以下为选型维度预告。
4.1 未来可用模型(示例)
- 人声分离模型(如 Demucs、Spleeter 的 ONNX 版)
- 伴奏/乐器分离模型
4.2 选型维度(规划)
4.3 命令占位(后续实现)
五、常见问题
问:ASR 表格里标点写“否”,输出会有标点吗?
答:会。因为程序默认调用了标点恢复(--punc)。你完全不用关心模型是否自带标点。
问:KV 加速和 int8 能一起用吗?
答:能。名字里同时有 int8 和 kv/selfcrosskv 的模型就是。
问:distil-whisper 和普通 whisper 有什么区别?
答:distil-whisper 是蒸馏版本,体积更小、速度更快,精度略低但通常够用,适合资源受限场景。
问:怎么看模型是否支持我的语言?
答:看表格里的“支持语种”列,或从模型名称中的语言代码推断(zh/yue/en/ja/ko 等)。
问:下载太慢怎么办?
答:从 ModelScope 手动下载,放到 --base 目录(默认是程序目录下的 models/)。
六、总结:选模型就是选指标
按这个顺序在模型列表里筛选,把筛选出的模型名填到 --model 后面,运行命令。如果效果不满意,再调整筛选条件换一批模型试。
下一步
- 模型库 - 详细的模型说明

