Punc モデル
CT-Transformer シリーズ
説明
- モデル背景:アリババダモアカデミーがオープンソース化した句読点モデル。Controllable Time-delay Transformer(CT-Transformer) アーキテクチャをベースに、主に音声認識結果の後処理、テキストへの句読点予測と復元を目的として開発されました。
- 機能特性:モデルは Embedding、Encoder、Predictor の3部分で構成されます。Embedding は単語ベクトルと位置ベクトルを融合。Encoder は Transformer、Conformer など複数のネットワーク構造に対応。Predictor はトークンごとに句読点タイプを予測します。従来の Transformer が抱える推論遅延の高さや句読点結果の頻繁な書き換えといった問題に対し、CT-Transformer は精度を維持しつつ制御可能な推論遅延を実現し、リアルタイム業務シナリオに適応します。汎用領域の業務データセットでのテスト結果:適合率 53.8%、再現率 60.0%、F1値 56.5%。学習サンプル総数は約3300万件。
- オープンソースリポジトリ:https://github.com/modelscope/FunASR
用語解説
int8:INT8量子化バージョン。モデルサイズを圧縮し推論速度を向上させるが、わずかな精度低下を伴うmge:MatMul、Gather、Embed のコアレイヤーに特化した量子化最適化。モデルサイズをさらに縮小し、ロードと推論速度を向上させる。精度はやや低下する可能性がある
モデル一覧
FireRedPunc シリーズ
説明
- モデル背景:FireRedPunc は FireRedASR2S 統合音声システムに含まれる独立した句読点予測モジュールです。BERT アーキテクチャをベースに開発され、音声認識の後処理シナリオに特化しており、中英バイリンガルの句読点復元をサポートします。
- 機能特性:このモデルの総合性能は業界 SOTA 水準に達しており、平均 F1 スコア 78.90% を記録。多分野の中英文データセットで優れた性能を発揮し、さまざまなオフライン・リアルタイム音声書き起こし業務に適応します。
- オープンソースリポジトリ:https://github.com/FireRedTeam/FireRedASR2S

