CT-Transformer シリーズ
説明
- モデル背景:アリババダモアカデミーがオープンソース化した句読点モデル。Controllable Time-delay Transformer(CT-Transformer) アーキテクチャをベースに、主に音声認識結果の後処理、テキストへの句読点予測と復元を目的として開発されました。
- 機能特性:モデルは Embedding、Encoder、Predictor の3部分で構成されます。Embedding は単語ベクトルと位置ベクトルを融合。Encoder は Transformer、Conformer など複数のネットワーク構造に対応。Predictor はトークンごとに句読点タイプを予測します。従来の Transformer が抱える推論遅延の高さや句読点結果の頻繁な書き換えといった問題に対し、CT-Transformer は精度を維持しつつ制御可能な推論遅延を実現し、リアルタイム業務シナリオに適応します。汎用領域の業務データセットでのテスト結果:適合率 53.8%、再現率 60.0%、F1値 56.5%。学習サンプル総数は約3300万件。
- オープンソースリポジトリ:https://github.com/modelscope/FunASR
用語解説
int8:INT8量子化バージョン。モデルサイズを圧縮し推論速度を向上させるが、わずかな精度低下を伴うmge:MatMul、Gather、Embed のコアレイヤーに特化した量子化最適化。モデルサイズをさらに縮小し、ロードと推論速度を向上させる。精度はやや低下する可能性がある

