AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

Whisper 语音识别模型 Whisper

OpenAI 开源的多语言语音识别与翻译模型,在噪声鲁棒性和跨语言表现上表现优异。

分类:multimodal 类型:model 别名:Whisper

Whisper 在大规模多语言、多领域语音数据上进行预训练,能够执行语音转文本、语音翻译以及简单的说话人检测任务。其公开权重和推理代码降低了高质量 ASR 技术的门槛,是构建语音助手、会议转录和听障辅助应用的常见选择。

Whisper 也常与大语言模型结合,用于「语音 → 文本 → LLM → 文本/语音」的多模态交互链路。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记