Whisper：OpenAI开源的自动语音识别

乐科技 ›AI导航› AI音频工具 › Whisper：OpenAI开源的自动语音识别

详细介绍

Whisper是由OpenAI开发并开源的自动语音识别（ASR）系统，于2022年9月首次发布。该系统使用了从网络上收集的68万小时多语言和多任务监督数据进行训练，这些数据包括96种不同语言的音频。

Whisper基于Transformer架构，采用编码器-解码器结构，将输入音频分割成30秒的片段，转换为对数梅尔频谱图后传入编码器，然后通过解码器预测相应的文本描述。这种设计使得Whisper在处理长音频段如讲座或演讲时具有较高的保真度，并且能够有效应对背景噪音和技术语言。

Whisper不仅支持多语言语音识别，还具备语音翻译和语言识别的功能，可以转录多种语言并将其翻译成英语。此外，Whisper在英语语音识别方面接近人类水平的鲁棒性和准确性，使其成为目前最精确的AI语音识别模型之一。

Whisper的训练方法采用了弱监督学习，允许数据集中存在一些噪声和不完美之处，从而扩大了数据集规模并提高了模型的泛化能力。它还表现出色地应用于低资源语言的语音识别任务，例如奥克西坦方言和阿拉伯语Shehri，分别达到了11.74%和3.5%的词错误率（WER）。

总之，Whisper是一个功能强大、应用广泛的通用语音识别系统，凭借其高精度和鲁棒性，在语音识别领域取得了显著进展.

上一篇：听脑AI：多功能智能语音助手下一篇：Notta：AI语音转文本工具

Whisper (OpenAI开源自动语音识别)

详细介绍

相关分类

最新收录