CT-Transformer 系列
说明
- 模型背景:由阿里巴巴达摩院开源的标点模型,基于 Controllable Time-delay Transformer(CT-Transformer) 架构打造,主要用于语音识别结果后处理,完成文本标点预测与恢复。
- 功能特性:模型由 Embedding、Encoder、Predictor 三部分构成:Embedding 融合词向量与位置向量;Encoder 支持 Transformer、Conformer 等多种网络结构;Predictor 负责逐 Token 预测标点类型。针对传统 Transformer 推理时延高、标点结果反复刷新的问题,CT-Transformer 在保证精度不变的前提下实现可控推理时延,适配实时业务场景。基于通用领域业务数据集测试:精确率 53.8%、召回率 60.0%、F1 值 56.5%;训练样本总量约 3300 万条。
- 开源仓库:https://github.com/modelscope/FunASR
名词释义
int8:INT8 量化版本,压缩模型体积、加快推理速度,存在小幅精度损耗mge:针对 MatMul、Gather、Embed 核心层专项量化优化,进一步缩减模型体积,提升加载与推理速度,精度可能略有下降

