快捷导航
搜索
乐科技 AI导航 AI音频工具 Whisper:OpenAI开源的自动语音识别
Whisper

Whisper (OpenAI开源自动语音识别)

Whisper是由OpenAI开发并开源的自动语音识别(ASR)系统,经过68万小时的多语言和多任务监督数据训练,能够有效应对背景噪音和技术语言。

官网直达 分类:AI音频工具 音转文查看: 67

详细介绍

Whisper是由OpenAI开发并开源的自动语音识别(ASR)系统,于2022年9月首次发布。该系统使用了从网络上收集的68万小时多语言和多任务监督数据进行训练,这些数据包括96种不同语言的音频。

Whisper基于Transformer架构,采用编码器-解码器结构,将输入音频分割成30秒的片段,转换为对数梅尔频谱图后传入编码器,然后通过解码器预测相应的文本描述。这种设计使得Whisper在处理长音频段如讲座或演讲时具有较高的保真度,并且能够有效应对背景噪音和技术语言。

Whisper不仅支持多语言语音识别,还具备语音翻译和语言识别的功能,可以转录多种语言并将其翻译成英语。此外,Whisper在英语语音识别方面接近人类水平的鲁棒性和准确性,使其成为目前最精确的AI语音识别模型之一。

Whisper的训练方法采用了弱监督学习,允许数据集中存在一些噪声和不完美之处,从而扩大了数据集规模并提高了模型的泛化能力。它还表现出色地应用于低资源语言的语音识别任务,例如奥克西坦方言和阿拉伯语Shehri,分别达到了11.74%和3.5%的词错误率(WER)。

总之,Whisper是一个功能强大、应用广泛的通用语音识别系统,凭借其高精度和鲁棒性,在语音识别领域取得了显著进展.

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 16 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

返回顶部