ASR 模型
DolphinAsr 系列
说明
- License: Apache 2.0
opt:优化版本,将音频特征提取模块移出模型,降低推理开销- 完整支持语言及区域编码对照:
DolphinAsr-base 模型
DolphinAsr-small 模型
FireRedAsr 系列
FireRedAsr-AED 中英模型(v1)
FireRedAsr2-AED 中英模型(v2)
Fun-ASR 系列
说明
- 模型背景:由通义实验室推出的端到端语音识别大模型,基于数千万小时真实语音数据训练,具备强上下文理解与行业适配能力
- 功能特性:全系非流式、支持标点、支持时间戳,支持低延迟实时转写,远场高噪声场景识别准确率可达93%
- 版本标识释义:
int8:INT8 量化版本,体积更小、推理速度更快、适合端侧部署LLM:大模型增强版,上下文理解更强,抑制识别幻觉CTC:经典 CTC 架构轻量版,推理轻量化MLT:多语言通用版,覆盖31种语言split-adaptor:特征适配模块分离部署版本- 语种与能力说明:
- Fun-ASR-Nano:支持中文、英文、日语;7种方言(吴语、粤语、闽语、客家话、赣语、湘语、晋语);26种地方口音(河南、山西、湖北、四川、重庆、云南、贵州、广东、广西、陕西、河北、山东、安徽、天津、宁夏、辽宁、甘肃、湖南、黑龙江、吉林、内蒙古、江苏、浙江、福建、江西、海南);额外支持歌词识别、说唱语音识别
- Fun-ASR-MLT-Nano:共支持31种语言:中文、英文、粤语、日语、韩语、越南语、印尼语、泰语、马来语、菲律宾语、阿拉伯语、印地语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、希腊语、匈牙利语、爱尔兰语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语
- 行业优势:在教育、金融等垂直领域表现优异,可精准识别专业术语,有效抑制幻觉生成与语言混淆问题
Fun-ASR-Nano 模型
Fun-ASR-MLT-Nano 模型
FunASR 系列
Paraformer 中英模型
Paraformer 粤/中英多语言模型
SeACo-Paraformer 热词定制模型
SeACoParaformer是阿里巴巴语音实验室提出的新一代热词定制化非自回归语音识别模型。相比于上一代基于CLAS的热词定制化方案,SeACoParaformer解耦了热词模块与ASR模型,通过后验概率融合的方式进行热词激励,使激励过程可见可控,并且热词召回率显著提升。
SenseVoice 模型
K2TransducerAsr 系列
流式模型
非流式模型
MedAsr 系列
说明
- 模型架构:基于 Conformer 架构,由 Google Health 推出医疗场景专用语音识别模型
- 适用场景:适合放射科口述、医患对话、医学病历转录等医疗听写任务
- 支持语种:仅 英语(美式英语为主)
- 模型特点:经约5000小时医疗语音数据预训练,医学专业术语识别能力强;对非标准药名、日期时间类结构化数据识别存在波动,适合二次微调适配业务场景
moonshine 系列
moonshine-tiny 模型
moonshine-base 模型
WeNet 系列
流式模型
非流式模型
Whisper 系列
说明
- 后缀带
-kv代表启用 KV Cache 推理加速- 全系模型支持标点、支持时间戳,默认输出段落级时间戳,可通过参数开启词级时间戳
- 语种范围:
- 标准多语言版(tiny/small/medium/large-v1/large-v2):共支持 99 种语言(含中文、粤语、英语、日语、韩语、俄语、阿拉伯语、越南语、乌克兰语等全球主流语种)
- large-v3 / large-v3-turbo 系列:在99种语言基础上扩充低资源语种,总计约 106 种,新增:祖鲁语(zu)、毛利语(mi)、斯瓦希里语(sw)、豪萨语(ha) 等,对应语种识别效果显著增强
- 完整语种及代码:
- 语种代码简写:
whisper-tiny 模型
whisper-small 模型
whisper-medium 模型
whisper-large 模型
Distil-Whisper 模型
通用说明
int8= 量化版,体积更小、速度更快kv/selfcrosskv/selfcrosskvstack/opt= 推理优化版本- 部分模型提供 HuggingFace 或 GitHub 下载源,详见各表

