ASR モデル
DolphinAsr シリーズ
説明
- License: Apache 2.0
opt:最適化バージョン。オーディオ特徴抽出モジュールをモデルから分離し、推論オーバーヘッドを低減- 完全対応言語および地域コード対応表:
DolphinAsr-base モデル
DolphinAsr-small モデル
FireRedAsr シリーズ
FireRedAsr-AED 中英モデル(v1)
FireRedAsr2-AED 中英モデル(v2)
Fun-ASR シリーズ
説明
- モデル背景:通義実験室が発表したエンドツーエンド音声認識大モデル。数千万時間の実音声データで事前学習され、強力な文脈理解と業界適応能力を持つ
- 機能特性:全シリーズ非ストリーミング、句読点対応、タイムスタンプ対応。低遅延リアルタイム書き起こしをサポートし、遠距離・高騒音環境での認識精度は93%に達する
- バージョン識別子の説明:
int8:INT8量子化バージョン。サイズが小さく、推論速度が高速で、エッジ展開に適するLLM:大モデル強化版。文脈理解がより強力で、認識幻覚を抑制CTC:古典的なCTCアーキテクチャの軽量版。推論が軽量MLT:多言語汎用版。31言語をカバーsplit-adaptor:特徴適応モジュールを分離して展開するバージョン- 言語と能力の説明:
- Fun-ASR-Nano:中国語、英語、日本語に対応。7つの方言(呉語、広東語、閩語、客家語、贛語、湘語、晋語)。26の地方訛り(河南、山西、湖北、四川、重慶、雲南、貴州、広東、広西、陝西、河北、山東、安徽、天津、寧夏、遼寧、甘粛、湖南、黒竜江、吉林、内モンゴル、江蘇、浙江、福建、江西、海南)。歌詞認識、ラップ音声認識もサポート
- Fun-ASR-MLT-Nano:合計31言語に対応:中国語、英語、広東語、日本語、韓国語、ベトナム語、インドネシア語、タイ語、マレー語、フィリピノ語、アラビア語、ヒンディー語、ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、エストニア語、フィンランド語、ギリシャ語、ハンガリー語、アイルランド語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スウェーデン語
- 業界優位性:教育、金融などの垂直領域で優れた性能を発揮し、専門用語を正確に認識し、幻覚生成や言語混同の問題を効果的に抑制
Fun-ASR-Nano モデル
Fun-ASR-MLT-Nano モデル
FunASR シリーズ
Paraformer 中英モデル
Paraformer 粤/中英多言語モデル
SeACo-Paraformer ホットワードカスタマイズモデル
SeACoParaformerは、アリババ音声実験室が提案した次世代のホットワードカスタマイズ非自己回帰音声認識モデルです。従来のCLASベースのホットワードカスタマイズ方式と比較して、ホットワードモジュールとASRモデルを分離し、事後確率融合によりホットワードを促進することで、促進プロセスを可視化・制御可能にし、ホットワードの再現率を大幅に向上させています。
SenseVoice モデル
K2TransducerAsr シリーズ
ストリーミングモデル
非ストリーミングモデル
MedAsr シリーズ
説明
- モデルアーキテクチャ:Conformer ベース。Google Health が発表した医療シーン向け音声認識モデル
- 適用シーン:放射線科の口述、医師と患者の対話、医学文書の書き起こしなど、医療向けディクテーションタスクに適合
- 対応言語:英語のみ(主に米国英語)
- モデル特徴:約5000時間の医療音声データで事前学習され、医学専門用語の認識に強い。非標準的な薬品名や日時といった構造化データの認識にはばらつきがあるため、業務シーンに合わせた追加のファインチューニングを推奨
moonshine シリーズ
moonshine-tiny モデル
moonshine-base モデル
WeNet シリーズ
ストリーミングモデル
非ストリーミングモデル
Whisper シリーズ
説明
- 末尾に
-kvが付くものは、KV Cache推論高速化を有効にしたバージョン- 全シリーズ句読点対応、タイムスタンプ対応。デフォルトで段落レベルのタイムスタンプを出力し、パラメータで単語レベルのタイムスタンプも有効化可能
- 言語範囲:
- 標準多言語版(tiny/small/medium/large-v1/large-v2):合計 99言語(中国語、広東語、英語、日本語、韓国語、ロシア語、アラビア語、ベトナム語、ウクライナ語など世界の主要言語を含む)
- large-v3 / large-v3-turbo シリーズ:99言語に加え低リソース言語を拡張し、合計約 106言語。新たに追加されたもの:ズールー語(zu)、マオリ語(mi)、スワヒリ語(sw)、ハウサ語(ha) など。言語識別効果が顕著に向上
- 完全な言語一覧とコード:
- 言語コード省略形:
whisper-tiny モデル
whisper-small モデル
whisper-medium モデル
whisper-large モデル
Distil-Whisper モデル
共通説明
int8= 量子化版。サイズが小さく、速度が高速kv/selfcrosskv/selfcrosskvstack/opt= 推論最適化バージョン- 一部のモデルは HuggingFace または GitHub のソースを提供しています。各表を参照してください

