详细介绍
Whisper是由OpenAI开发并开源的自动语音识别(ASR)系统,于2022年9月首次发布。该系统使用了从网络上收集的68万小时多语言和多任务监督数据进行训练,这些数据包括96种不同语言的音频。
Whisper基于Transformer架构,采用编码器-解码器结构,将输入音频分割成30秒的片段,转换为对数梅尔频谱图后传入编码器,然后通过解码器预测相应的文本描述。这种设计使得Whisper在处理长音频段如讲座或演讲时具有较高的保真度,并且能够有效应对背景噪音和技术语言。
Whisper不仅支持多语言语音识别,还具备语音翻译和语言识别的功能,可以转录多种语言并将其翻译成英语。此外,Whisper在英语语音识别方面接近人类水平的鲁棒性和准确性,使其成为目前最精确的AI语音识别模型之一。
Whisper的训练方法采用了弱监督学习,允许数据集中存在一些噪声和不完美之处,从而扩大了数据集规模并提高了模型的泛化能力。它还表现出色地应用于低资源语言的语音识别任务,例如奥克西坦方言和阿拉伯语Shehri,分别达到了11.74%和3.5%的词错误率(WER)。
总之,Whisper是一个功能强大、应用广泛的通用语音识别系统,凭借其高精度和鲁棒性,在语音识别领域取得了显著进展.