子命令详解

asr - 语音识别

识别类型

类型说明适用场景
online实时流式识别,边录边出字麦克风、直播、低延迟
offline非流式识别,处理完整音频文件识别、长音频
2pass双流融合,实时+精修兼顾实时与精度

基本用法

# 文件识别(离线)
manyspeech asr -t offline -f audio.wav

# 麦克风识别(在线)
manyspeech asr -t online -i mic

# 2pass 识别
manyspeech asr -t 2pass -i mic

输出格式

格式说明
text纯文本(默认)
jsonJSON格式,含时间戳
srtSubRip字幕
vttWebVTT字幕
manyspeech asr -t offline --format srt -f audio.wav

vad - 语音端点检测

检测类型

类型说明适用场景
online实时流式检测,边录边检测麦克风实时VAD
offline非流式检测,处理完整音频音频文件静音剔除

基本用法

# 麦克风在线检测
manyspeech vad -t online -i mic

# 音频文件离线检测
manyspeech vad -t offline -f audio.wav

# 指定输出格式
manyspeech vad -t offline --format wav -f audio.wav

输出格式

格式说明
wav音频格式(默认)
pcm音频格式
raw音频格式

punc - 标点符号恢复

基本用法

# 直接输入文本
manyspeech punc --text "今天天气不错一起去郊游吧"

# 从文件读取
manyspeech punc -f text.txt

# 交互模式
manyspeech punc
> 输入文本

输出格式

格式说明
txt文本(默认)