モデル選定ガイド
更新が続くモデルリストについて、すべての名称を暗記する必要はありません。本ガイドでは各モデルの主要指標の読み方を解説し、使用言語・リアルタイム性・動作環境・タイムスタンプなどの要件に基づいて適切なモデルを選定する方法を紹介します。
📌 すべてのモデルはONNX形式です。
manyspeech初回利用時に自動でダウンロードされます。
一、音声認識(ASR)モデル
1. 6つの主要指標:モデルとコマンドの理解
各モデル表に記載されている項目を理解すれば、用途に合ったモデル選びとコマンド作成が可能になります。
句読点項目を無視できる理由(中日英共通環境)
モデル本体に句読点機能が搭載されているかに関わらず、manyspeech は標準で句読点補完モデル(--punc)を呼び出し、出力結果に句読点を付加します。モデル側の句読点機能有無を気にする必要はありません。
マイクはonline、ファイルはofflineが基本
基本的に上記の使い分けを推奨します。以下の組み合わせも利用可能です。
基本的なコマンド例(some-model を選定したモデル名に置き換え)
⚠️
asrサブコマンドには-i引数が必須です。-i fileまたは-i micのいずれかを指定してください。--modelを省略した場合、標準モデルが使用されますが、用途に適さない可能性があるため、手動で指定することを推奨します。
2. モデル名から読み取れる情報
モデル名自体が簡易仕様書となっています。表の指標以外にも、名称から各種仕様を確認できます。
distil-whisper-xxxは同規模の標準whisper-xxxより軽量・高速で、リソースが限られた環境に適します。xxx-cantonese-onnx・xxx-wenetspeech-yueは広東語向けに調整されており、汎用モデルより精度が高くなります。xxx-onnx-optは通常のxxx-onnxより総合的な性能に優れます。
3. 4ステップによるモデル選定フロー
手順1:使用言語を確認
対応言語列から、利用する言語に対応したモデルを絞り込みます。
- 北京語:
zh・中国語と記載のモデルを優先 - 中日英混在:
zh-en・中日英対応のモデルを選択 - 広東語:
yue・広東語、または名称にcantonese/yueを含むモデルを選択 - 英語:
en・英語、またはdistil-whisper-*-en系モデルを選択 - 日本語・韓国語・タイ語・ロシア語 など:
ja・ko・th・ruなど各言語コードのモデルを選択 - 複数言語対応:多言語・
multi、または対応言語数の多いモデル(Whisperシリーズなど)を選択
特定言語に特化したモデルは、該当言語の認識精度が高くなります。多言語対応モデルは汎用性に優れますが、単一言語専用モデルに比べ精度が若干低下する場合があります。
finetuneや固有接尾辞を持つモデルは、医療・対話・方言など特定シーン向けに調整済みのため、用途が一致する場合は優先してください。
手順2:リアルタイム処理の要否を選択
種別列を参照してください。
手順3:動作環境(ハードウェア)に合わせる
精度形式とモデル規模を確認して選択します。
int8量子化によりファイルサイズが50%~75%削減、処理速度が2~4倍向上し、精度低下は通常1%未満のため、広く推奨できます。distil-接頭辞のモデルも軽量・高速なため、リソース不足環境に適します。
手順4:字幕作成の要否を確認
VAD未使用時
- SRT/VTT字幕を作成する場合 → タイムスタンプ「有」のモデル(表記が「有」または名称に
timestampを含む)を選択 - 字幕不要 → タイムスタンプ項目を無視し、任意のモデルを使用可能
VAD使用時
- モデルのタイムスタンプ機能は必須ではありません。オンラインモデルのみでもタイムスタンプ付き字幕を生成可能です。
句読点はプログラム側で自動補完されるため、モデルの句読点機能は考慮不要です。
追加要件:ホットワード設定
固有名詞・専門用語など特定単語の認識率を高めたい場合は、名称にseacoを含むモデル(SeACo-Paraformer)を選択してください。ホットワード機能に対応しています。
4. 汎用コマンドテンプレート
選定したモデル名を記入して利用してください。
二、音声区間検出(VAD)モデル
1. 利用可能なモデル
2. 選定推奨
- 静かな環境:標準の
alifsmnvad-onnxを使用してください。 - 騒音環境(ファン音、車道騒音、複数人の雑談など):
silero-vad-v6-onnxに切り替えてください。
3. 汎用コマンド
三、句読点補完(Punc)モデル
1. 利用可能なモデル
2. 補足説明
ASR実行時は標準で本モデルが自動呼び出しされ、認識結果に句読点が付加されるため、通常手動で設定する必要はありません。
個別に動作確認・利用する場合は punc サブコマンドを使用してください。
3. 汎用コマンド
四、音声分離(AudioSep)モデル(開発予定)
本機能は現在開発中で、利用可能なモデルは存在しません。今後の選定軸を事前に記載します。
4.1 今後の予定モデル(例)
- 人声分離モデル(Demucs、Spleeter のONNX版など)
- 伴奏・楽器音分離モデル
4.2 選定軸(予定)
4.3 コマンド例(実装予定)
五、よくある質問
Q:ASRモデルの句読点項目が「無」になっている場合、出力に句読点は付加されますか?
A:付加されます。プログラム標準で句読点補完機能(--punc)が有効になっているため、モデル本体の機能有無を気にする必要はありません。
Q:KVキャッシュ高速化とint8量子化は併用できますか?
A:可能です。モデル名にint8とkv/selfcrosskvの両方を含むモデルが該当します。
Q:distil-whisper と標準の whisper の違いは? A:distil-whisperはモデル蒸留による軽量版で、ファイルサイズが小さく処理が高速です。精度はわずかに低下しますが、一般的な用途では十分な性能を発揮し、リソース不足環境に適します。
Q:使用言語に対応したモデルか確認する方法は? A:表の「対応言語」列を参照するか、モデル名内の言語コード(zh/yue/en/ja/ko など)から判断してください。
Q:モデルのダウンロード速度が遅い場合は?
A:ModelScope から手動でモデルをダウンロードし、--base で指定したディレクトリ(標準はプログラム配下の models/ フォルダ)に配置してください。
六、まとめ:指標に基づくモデル選定
上記の順序でモデルを絞り込み、選定したモデル名を --model 引数に指定してコマンドを実行してください。
動作結果が想定通りでない場合は、選定条件を調整し別のモデルを試してください。
次のステップ
- モデルライブラリ - モデルの詳細説明

