作者:赵广立 来源:中国科学报 发布时间:2021/4/15 12:02:28
选择字号:
中国AI企业接连刷新三项语音技术成绩纪录

 

4月15日,记者从中科院旗下人工智能(AI)创业公司云从科技获悉,4月以来,该公司通过优化算法、提出新模型,接连在语音技术方面取得多项突破,在语义纠错、语音识别、深度学习降噪等领域刷新多项语音识别权威纪录,超越此前亚马逊、搜狗等企业创下的最好成绩。

在语义纠错方面,云从团队提出的新模型在权威中文语音识别数据集Aishell和清华大学语音Thchs30测试集上,将字错率(CER)第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。字错率降低意味着更准确地将语音转换为文字,并尽量纠正语义错误。这一提升让AI更加“听得懂”。

在语音识别方面,云从新模型通过融合语音识别和说话人声纹识别,在提高识别率的同时,大大提升了在不同说话人场景下的鲁棒性。新模型刷新了Aishell的识别纪录,将字错率降低到4.34%,较过去最好成绩降低了8%。这一提升意味着AI可更精准识别出说话者,让AI更加“听得出”。

在深度学习降噪方面,云从团队基于“带有注意力机制的卷积递归神经网络”提出的深度学习降噪模型,在行业顶会Interspeech2020 DNS Challenge比赛数据集上取得了目前最好的结果,在诸如PESQ(衡量失真的指标)等指标上相对提高了10%以上。这些提升主要针对嘈杂环境去除噪声,使语音更清晰,让AI更能“听得清”。

“语音技术每提升1个百分点的准确率,都如同征服一座高山。”云从科技联合创始人姚志强对《中国科学报》表示,此次云从一举在三项语音技术上取得新突破,不仅展现了企业的科研基础与创新能力,同时也彰显出云从在AI技术领域的全面性与综合性。近年来语音技术已经广泛应用于人们的生活,但大多是依托智能语音设备在室内安静环境下的单人交互,云从团队提出的多个创新模型,对于突破业界瓶颈,攻克嘈杂环境、多人对话等复杂应用难题,具有重大意义。

相关论文信息:

https://arxiv.org/abs/2104.05507

http://arxiv.org/abs/2104.05267

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
缓解肠易激综合征  饮食比服药更有效 银河系发现巨大黑洞
史上最亮伽马射线暴来自一颗坍缩的恒星 导师:年年审毕业论文,总有这些问题!
>>更多
 
一周新闻排行
 
编辑部推荐博文