Punc モデル

CT-Transformer シリーズ

説明

  • モデル背景:アリババダモアカデミーがオープンソース化した句読点モデル。Controllable Time-delay Transformer(CT-Transformer) アーキテクチャをベースに、主に音声認識結果の後処理、テキストへの句読点予測と復元を目的として開発されました。
  • 機能特性:モデルは Embedding、Encoder、Predictor の3部分で構成されます。Embedding は単語ベクトルと位置ベクトルを融合。Encoder は Transformer、Conformer など複数のネットワーク構造に対応。Predictor はトークンごとに句読点タイプを予測します。従来の Transformer が抱える推論遅延の高さや句読点結果の頻繁な書き換えといった問題に対し、CT-Transformer は精度を維持しつつ制御可能な推論遅延を実現し、リアルタイム業務シナリオに適応します。汎用領域の業務データセットでのテスト結果:適合率 53.8%、再現率 60.0%、F1値 56.5%。学習サンプル総数は約3300万件。
  • オープンソースリポジトリ:https://github.com/modelscope/FunASR

用語解説

  • int8:INT8量子化バージョン。モデルサイズを圧縮し推論速度を向上させるが、わずかな精度低下を伴う
  • mge:MatMul、Gather、Embed のコアレイヤーに特化した量子化最適化。モデルサイズをさらに縮小し、ロードと推論速度を向上させる。精度はやや低下する可能性がある

モデル一覧

モデル名語彙数説明ダウンロード先
alicttransformerpunc-zh-en-onnx272727標準オリジナル版。中英語汎用句読点モデルmodelscope
alicttransformerpunc-zh-en-int8-onnx272727標準版のINT8量子化。サイズ削減、推論高速化modelscope
alicttransformerpunc-zh-en-mge-int8-onnx272727標準版 + コアレイヤーMGE最適化 + INT8量子化。ロード・推論速度がさらに向上。精度はやや低下modelscope
alicttransformerpunc-large-zh-en-onnx471067大パラメータオリジナル版。句読点認識精度がより高いmodelscope
alicttransformerpunc-large-zh-en-int8-onnx471067大パラメータ版のINT8量子化。精度と推論速度の両立modelscope
alicttransformerpunc-large-zh-en-mge-int8-onnx471067大パラメータ版 + コアレイヤーMGE最適化 + INT8量子化。総合的な実行効率が最も高い。精度はやや低下modelscope

FireRedPunc シリーズ

説明

  • モデル背景:FireRedPunc は FireRedASR2S 統合音声システムに含まれる独立した句読点予測モジュールです。BERT アーキテクチャをベースに開発され、音声認識の後処理シナリオに特化しており、中英バイリンガルの句読点復元をサポートします。
  • 機能特性:このモデルの総合性能は業界 SOTA 水準に達しており、平均 F1 スコア 78.90% を記録。多分野の中英文データセットで優れた性能を発揮し、さまざまなオフライン・リアルタイム音声書き起こし業務に適応します。
  • オープンソースリポジトリ:https://github.com/FireRedTeam/FireRedASR2S

モデル一覧

モデル名説明ダウンロード先
FireRedPunc-zh-en-onnx中英語汎用句読点予測モデル。総合精度に優れ、SOTAレベルの性能modelscope