Browse By

Google 公布核弹级 AI API:通用语音模型(USM)

去年 11 月公布计划之後,Google 最近发表了他们自己的通用语音模型(USM)API 与研究成果,参数拥有 1200 万小时语音和 280 亿组训练、涵盖 300 多种语言,目前已经可以支援 100 多种语言自动辨识。从支援语种、资料库大小来看无疑是核弹级的模型(而且还在持续发展中,最终目标是支援 1000 种语言)。这里是 USM 的几个重点:

自我监督学习三部曲

目前自动语音识别(ASR)的最大挑战是传统监督学习方法缺乏可扩展性、费时费力,模型本身需要更高效的方式改进来扩大语种跟辨别品质。

Google 采取的方式「不断自我监督学习并微调」。详细做法是,第一步使用自我监督学习法 BEST-RQ,可以在无外部监督的情形下大量分析并学习语音资料(光这一步就是 80% 工作量);读者可以想像,这阶段完全是由机器自己监督、自己学习,完全不依赖人工。

Photo Credit: Google

第二步则是使用多目标监督预训练模型来整合来自其他资料的知识,主要是由 text injection、BEST-RQ 跟监督式 loss 函数共同训练。第三则是只让监督式 loss 函数介入,对终端任务进行微调。Google 表示第一、二阶段产出就非常好,乃至於第三阶只占了 5% 工作量,那能获得品质就非常好的整体模型

对,所以你看 YouTube 不一样了

不知道有没有读者有感觉到 YouTube 即时语音辨识、翻译的品质变好了?没错,那就是因为 Google 已经把这版的 USM 使用在 YouTube ,特别在使用量较少(数据平均不到 3000 小时)的 73 种语言上实现低於 30% 的单词错误率(WER)。

Photo Credit: Google

宣称大胜 OpenAI 的 Whisper

Google 当然也不免拿别人的东西比较一番。在美式英语的表现上,跟其他最先进模型相比 WER 低了 6%;而且跟 OpenAI 的 Whisper (large-v2) 相比,在 Whisper 上 WER 低於 40% 的 18 种语言中,Google 的 USM WER 平均比 Whisper 低 32.7%。(简单来说就是 Whisper 准多啦)。

目前 Google 已经释出论文,同时让研究人员申请使用 USM API 。

核稿编辑:Jocelyn

openvpn怎么设置

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x