Punc モデル

CT-Transformer シリーズ

説明

モデル背景：アリババダモアカデミーがオープンソース化した句読点モデル。Controllable Time-delay Transformer（CT-Transformer） アーキテクチャをベースに、主に音声認識結果の後処理、テキストへの句読点予測と復元を目的として開発されました。

機能特性：モデルは Embedding、Encoder、Predictor の3部分で構成されます。Embedding は単語ベクトルと位置ベクトルを融合。Encoder は Transformer、Conformer など複数のネットワーク構造に対応。Predictor はトークンごとに句読点タイプを予測します。従来の Transformer が抱える推論遅延の高さや句読点結果の頻繁な書き換えといった問題に対し、CT-Transformer は精度を維持しつつ制御可能な推論遅延を実現し、リアルタイム業務シナリオに適応します。汎用領域の業務データセットでのテスト結果：適合率 53.8%、再現率 60.0%、F1値 56.5%。学習サンプル総数は約3300万件。

オープンソースリポジトリ：https://github.com/modelscope/FunASR

用語解説

int8：INT8量子化バージョン。モデルサイズを圧縮し推論速度を向上させるが、わずかな精度低下を伴う
mge：MatMul、Gather、Embed のコアレイヤーに特化した量子化最適化。モデルサイズをさらに縮小し、ロードと推論速度を向上させる。精度はやや低下する可能性がある

モデル一覧

モデル名	語彙数	説明	ダウンロード先
alicttransformerpunc-zh-en-onnx	272727	標準オリジナル版。中英語汎用句読点モデル	modelscope
alicttransformerpunc-zh-en-int8-onnx	272727	標準版のINT8量子化。サイズ削減、推論高速化	modelscope
alicttransformerpunc-zh-en-mge-int8-onnx	272727	標準版 + コアレイヤーMGE最適化 + INT8量子化。ロード・推論速度がさらに向上。精度はやや低下	modelscope
alicttransformerpunc-large-zh-en-onnx	471067	大パラメータオリジナル版。句読点認識精度がより高い	modelscope
alicttransformerpunc-large-zh-en-int8-onnx	471067	大パラメータ版のINT8量子化。精度と推論速度の両立	modelscope
alicttransformerpunc-large-zh-en-mge-int8-onnx	471067	大パラメータ版 + コアレイヤーMGE最適化 + INT8量子化。総合的な実行効率が最も高い。精度はやや低下	modelscope

FireRedPunc シリーズ

説明

モデル背景：FireRedPunc は FireRedASR2S 統合音声システムに含まれる独立した句読点予測モジュールです。BERT アーキテクチャをベースに開発され、音声認識の後処理シナリオに特化しており、中英バイリンガルの句読点復元をサポートします。

機能特性：このモデルの総合性能は業界 SOTA 水準に達しており、平均 F1 スコア 78.90% を記録。多分野の中英文データセットで優れた性能を発揮し、さまざまなオフライン・リアルタイム音声書き起こし業務に適応します。

オープンソースリポジトリ：https://github.com/FireRedTeam/FireRedASR2S

モデル一覧

モデル名	説明	ダウンロード先
FireRedPunc-zh-en-onnx	中英語汎用句読点予測モデル。総合精度に優れ、SOTAレベルの性能	modelscope

#Punc モデル

#CT-Transformer シリーズ

#モデル一覧

#FireRedPunc シリーズ

#モデル一覧

Punc モデル

CT-Transformer シリーズ

モデル一覧

FireRedPunc シリーズ

モデル一覧