モデル選定ガイド

更新が続くモデルリストについて、すべての名称を暗記する必要はありません。本ガイドでは各モデルの主要指標の読み方を解説し、使用言語・リアルタイム性・動作環境・タイムスタンプなどの要件に基づいて適切なモデルを選定する方法を紹介します。

📌 すべてのモデルはONNX形式です。manyspeech 初回利用時に自動でダウンロードされます。

一、音声認識(ASR)モデル

1. 6つの主要指標:モデルとコマンドの理解

各モデル表に記載されている項目を理解すれば、用途に合ったモデル選びとコマンド作成が可能になります。

指標意味コマンドライン引数活用方法
種別オンライン / オフラインリアルタイム文字出力の可否-t online / -t offlineマイク利用時はonline、音声ファイル処理時はofflineを選択
対応言語中国語、英語、広東語、多言語 などモデルが得意とする言語--modelで指定使用言語に一致するほど認識精度が向上
句読点 / 出力結果への句読点付加の可否特に指定不要(--puncで後付け可能)本項目は無視可能。プログラム側で自動的に句読点を補完
タイムスタンプ / 時間情報出力の可否--format srt / --format vtt字幕作成時は「有」を選択
KVキャッシュ / 推論高速化機能の有無自動で有効化を優先推奨。デコード速度が20%~50%向上
精度形式int8 / fp32量子化モデルの可否--accuracy int8int8を推奨。ファイルサイズ削減・処理高速化が実現

句読点項目を無視できる理由(中日英共通環境) モデル本体に句読点機能が搭載されているかに関わらず、manyspeech は標準で句読点補完モデル(--punc)を呼び出し、出力結果に句読点を付加します。モデル側の句読点機能有無を気にする必要はありません。

マイクはonline、ファイルはofflineが基本 基本的に上記の使い分けを推奨します。以下の組み合わせも利用可能です。

# オンラインモデルで音声ファイルを認識:リソース消費が少ない。同一環境下ではオフラインモデルより精度が若干低下
manyspeech asr -t online -m chunk -i file --files file1.wav file2.wav file3.wav

# オフラインモデルでマイク入力を認識:精度が高い。発話終了まで結果が表示されず、リソース消費も若干増加
manyspeech asr -t offline -m chunk -i mic

基本的なコマンド例some-model を選定したモデル名に置き換え)

# 音声ファイル認識(-i file は必須)
manyspeech asr -t offline -i file --files "会議録音.wav" --model some-model

# マイクリアルタイム認識
manyspeech asr -t online -i mic --model some-model

⚠️ asr サブコマンドには -i 引数が必須です。-i file または -i mic のいずれかを指定してください。--model を省略した場合、標準モデルが使用されますが、用途に適さない可能性があるため、手動で指定することを推奨します。

2. モデル名から読み取れる情報

モデル名自体が簡易仕様書となっています。表の指標以外にも、名称から各種仕様を確認できます。

名称の一部意味
online / offlineオンライン(ストリーミング)/ オフライン
zh / en / yue / ja / ko / multi対応言語(中国語/英語/広東語/日本語/韓国語/多言語)
tiny / small / base / large / xlargeモデル規模(規模が大きいほど精度が高く、処理速度・リソース消費が増加)
int8 / fp32量子化版 / 高精度版
timestampタイムスタンプ出力対応(字幕作成用)
kv / selfcrosskvKVキャッシュによる推論高速化対応
ctcCTCデコーディング構造(一般的に高速)
turboWhisperシリーズの蒸留高速化版
distilモデル蒸留版。元モデルより軽量・高速
finetune / 固有接尾辞(-belle-wenetspeech など)特定データセットでファインチューニング済み。方言・対話シーンなど特定用途に最適化
seaco単語ホットワード設定機能対応
llm大規模言語モデル連携強化版
opt最適化版(優先利用推奨)

distil-whisper-xxx は同規模の標準 whisper-xxx より軽量・高速で、リソースが限られた環境に適します。 xxx-cantonese-onnxxxx-wenetspeech-yue は広東語向けに調整されており、汎用モデルより精度が高くなります。 xxx-onnx-opt は通常の xxx-onnx より総合的な性能に優れます。

3. 4ステップによるモデル選定フロー

手順1:使用言語を確認

対応言語列から、利用する言語に対応したモデルを絞り込みます。

  • 北京語zh・中国語と記載のモデルを優先
  • 中日英混在zh-en・中日英対応のモデルを選択
  • 広東語yue・広東語、または名称にcantonese/yueを含むモデルを選択
  • 英語en・英語、またはdistil-whisper-*-en系モデルを選択
  • 日本語・韓国語・タイ語・ロシア語 などjakothru など各言語コードのモデルを選択
  • 複数言語対応:多言語・multi、または対応言語数の多いモデル(Whisperシリーズなど)を選択

特定言語に特化したモデルは、該当言語の認識精度が高くなります。多言語対応モデルは汎用性に優れますが、単一言語専用モデルに比べ精度が若干低下する場合があります。 finetuneや固有接尾辞を持つモデルは、医療・対話・方言など特定シーン向けに調整済みのため、用途が一致する場合は優先してください。

手順2:リアルタイム処理の要否を選択

種別列を参照してください。

要件推奨種別コマンド -t 引数
リアルタイム会話、生配信字幕、マイク入力オンライン-t online
音声ファイル処理、リアルタイム出力不要オフライン-t offline
リアルタイムプレビュー+最終結果の高精度修正両方併用-t 2pass(オンライン+オフラインモデルをそれぞれ指定)

手順3:動作環境(ハードウェア)に合わせる

精度形式とモデル規模を確認して選択します。

ハードウェア環境推奨設定コマンド推奨
サーバー(8コア以上、メモリ8GB以上)fp32 非量子化、large/xlargeクラス標準設定 または --accuracy fp32
一般PC(4コア、メモリ4GB)int8量子化、base/largeクラス--accuracy int8
Raspberry Pi、古いノートPC、組み込み機器int8量子化、tiny/smallクラス名称にtinyint8を含むモデルを選択(例:moonshine-tiny-*-int8
処理速度優先、精度は許容範囲内int8ctcsmallクラスctcint8を含むモデルを選択

int8量子化によりファイルサイズが50%~75%削減、処理速度が2~4倍向上し、精度低下は通常1%未満のため、広く推奨できます。 distil-接頭辞のモデルも軽量・高速なため、リソース不足環境に適します。

手順4:字幕作成の要否を確認

VAD未使用時

  • SRT/VTT字幕を作成する場合 → タイムスタンプ「有」のモデル(表記が「有」または名称にtimestampを含む)を選択
  • 字幕不要 → タイムスタンプ項目を無視し、任意のモデルを使用可能

VAD使用時

  • モデルのタイムスタンプ機能は必須ではありません。オンラインモデルのみでもタイムスタンプ付き字幕を生成可能です。

句読点はプログラム側で自動補完されるため、モデルの句読点機能は考慮不要です。

追加要件:ホットワード設定 固有名詞・専門用語など特定単語の認識率を高めたい場合は、名称にseacoを含むモデル(SeACo-Paraformer)を選択してください。ホットワード機能に対応しています。

4. 汎用コマンドテンプレート

選定したモデル名を記入して利用してください。

# オフラインで音声ファイルを認識
manyspeech asr -t offline -i file --files "音声ファイル.wav" --model 選定したモデル名

# マイクでリアルタイム認識
manyspeech asr -t online -i mic --model 選定したモデル名

# 2passモード
manyspeech asr -t 2pass -i mic \
  --model オンラインモデル名 \
  --model2 オフラインモデル名

# 字幕出力(モデルがタイムスタンプ対応の場合)
manyspeech asr -t offline -i file --files "音声ファイル.wav" \
  --format srt --model モデル名

# int8量子化を強制適用(量子化版が存在する場合)
manyspeech asr -t offline -i file --files "音声ファイル.wav" \
  --accuracy int8 --model モデル名

# 低スペック機器向け:スレッド数制限+軽量モデル
manyspeech --threads 1 asr -t offline -i file --files "音声ファイル.wav" \
  --model 軽量モデル名

# VADを切り替え(騒音環境ではsileroを使用)
manyspeech --vad silero-vad-v6-onnx asr -t online -i mic --model 選定したモデル名

二、音声区間検出(VAD)モデル

1. 利用可能なモデル

モデル名特徴適用シーンコマンド
alifsmnvad-onnx(標準)精度と速度のバランスに優れる会議室、静かな環境での録音--vad alifsmnvad-onnx
silero-vad-v6-onnx騒音環境に強い耐性を持つ通話、屋外、遠距離収音--vad silero-vad-v6-onnx

2. 選定推奨

  • 静かな環境:標準の alifsmnvad-onnx を使用してください。
  • 騒音環境(ファン音、車道騒音、複数人の雑談など):silero-vad-v6-onnx に切り替えてください。

3. 汎用コマンド

# ASR実行時にVADを指定
manyspeech --vad silero-vad-v6-onnx asr -t online -i mic --model 選定したモデル名

# VAD単体で音声区間を検出
manyspeech vad -t offline -i file --files "録音ファイル.wav" --vad silero-vad-v6-onnx

三、句読点補完(Punc)モデル

1. 利用可能なモデル

モデル名説明
alicttransformerpunc-zh-en-mge-int8-onnx中日英対応の句読点補完モデル。INT8量子化により軽量かつ高速

2. 補足説明

ASR実行時は標準で本モデルが自動呼び出しされ、認識結果に句読点が付加されるため、通常手動で設定する必要はありません。 個別に動作確認・利用する場合は punc サブコマンドを使用してください。

3. 汎用コマンド

# 任意のテキストに句読点を補完
manyspeech punc --text "今天天气不错一起去郊游吧"

# ASR実行時に句読点補完を無効化(モデル標準出力を確認する場合)
manyspeech --punc "" asr -t offline -i file --files "音声ファイル.wav" --model モデル名

四、音声分離(AudioSep)モデル(開発予定)

本機能は現在開発中で、利用可能なモデルは存在しません。今後の選定軸を事前に記載します。

4.1 今後の予定モデル(例)

  • 人声分離モデル(Demucs、Spleeter のONNX版など)
  • 伴奏・楽器音分離モデル

4.2 選定軸(予定)

選択肢説明
分離対象人声 / 伴奏 / ドラム / ベース など出力トラックを用途に応じて選択
モデル規模軽量版 / 高精度版軽量版はリアルタイム処理向け、高精度版はオフライン処理向け
出力形式独立音声ファイル / マスクデータ独立ファイルはそのまま利用可能、マスクデータは後処理が必要

4.3 コマンド例(実装予定)

# 参考(今後実装)
manyspeech audiosep -i file --files "混合音声.wav" --target vocals --output 人声.wav

五、よくある質問

Q:ASRモデルの句読点項目が「無」になっている場合、出力に句読点は付加されますか? A:付加されます。プログラム標準で句読点補完機能(--punc)が有効になっているため、モデル本体の機能有無を気にする必要はありません。

Q:KVキャッシュ高速化とint8量子化は併用できますか? A:可能です。モデル名にint8kv/selfcrosskvの両方を含むモデルが該当します。

Q:distil-whisper と標準の whisper の違いは? A:distil-whisperはモデル蒸留による軽量版で、ファイルサイズが小さく処理が高速です。精度はわずかに低下しますが、一般的な用途では十分な性能を発揮し、リソース不足環境に適します。

Q:使用言語に対応したモデルか確認する方法は? A:表の「対応言語」列を参照するか、モデル名内の言語コード(zh/yue/en/ja/ko など)から判断してください。

Q:モデルのダウンロード速度が遅い場合は? A:ModelScope から手動でモデルをダウンロードし、--base で指定したディレクトリ(標準はプログラム配下の models/ フォルダ)に配置してください。

六、まとめ:指標に基づくモデル選定

モデル種別主要選定軸推奨事項
ASR 音声認識使用言語 → リアルタイム性 → ハードウェア → 字幕要否 → ホットワードint8kv 搭載モデルを優先。句読点項目は無視
VAD 音声区間検出周囲の騒音レベル静環境は標準モデル、騒音環境はsilero-vadを使用
Punc 句読点補完特に選定不要標準設定のまま利用、必要に応じて単体実行
AudioSep 音声分離分離対象・精度(開発予定)今後のバージョンにて対応

上記の順序でモデルを絞り込み、選定したモデル名を --model 引数に指定してコマンドを実行してください。 動作結果が想定通りでない場合は、選定条件を調整し別のモデルを試してください。

次のステップ