Whisper 语音识别模型 Whisper
OpenAI 开源的多语言语音识别与翻译模型,在噪声鲁棒性和跨语言表现上表现优异。
Whisper 在大规模多语言、多领域语音数据上进行预训练,能够执行语音转文本、语音翻译以及简单的说话人检测任务。其公开权重和推理代码降低了高质量 ASR 技术的门槛,是构建语音助手、会议转录和听障辅助应用的常见选择。
Whisper 也常与大语言模型结合,用于「语音 → 文本 → LLM → 文本/语音」的多模态交互链路。
打开 GitHub 界面,修改后直接生成 PR