新加坡,简略粗犷而有用的改图:主动语音辨认数据扩增的“一条野路”,造梦西游3

体育新闻 admin 2019-05-06 286 次浏览 0个评论
网站分享代码

神经网络的调参无疑是一个巨大的工程。

如安在调参之前具有更佳的体现?含辛茹苦调好了但却过拟合,怎么具有更好的泛化才能?这无疑是人肉调参的必经之痛。一个通用的认知是,练习数据会约束模型体现的上限,能具有更好的练习数据,无疑成功了一大截儿。裴勇俊

近来,Daniel S. Park 等人在自动语音辨认(Automatic Speech Recognition,ASR)模型练习上,找到了一种简略却强壮的数据增强办法——SpecA新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游3ugment。该操作另辟蹊径,将原始语音数据生成的梅尔倒谱图直接进行图画改换,扩增练习数据,化腐朽为神奇,成果很棒。

啥是自动语音辨认

自动语音辨认,即依托深度神经网络模型将语音自动辨认为文本输入,无论是 Siri 帮手仍是微软小冰,抑或占有日子一部分的微信,都有它的身影,信任这个年代的你也早已习惯用语音转输入解放双手。

传统 ASR 模型兰博基尼egoista的原始输入数据一般先通过预处理,将搜集的音波转化为频谱图如梅尔倒频谱,也即梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC,必定程度上模拟了人耳对声响的处理特色)海贼王壁纸的谱图。

图 | 音波转化为梅尔倒频谱图成果示意图(来历:Daniel S. Park,et al./ Google Brain)

梅尔倒谱的一般流程是将声响信号进行傅立叶转化得到频谱,再进行取对数以及取逆傅立叶改换。

传统 ASR 模型扩增数据一般是将搜集到的音波进行改动加快、减速、加布景噪音等改换来进行数据集的丰厚,最终,这种扩增后的音频也要转化为频谱图。

但是,直接改动频谱图进行数据扩增,能否提高模型体现?究竟,图画范畴的扩增手法非常丰厚,直接将频谱作为图画用必定手法进行改换成果怎么?

Daniel S. Park 等人的 SpecAugment 办法证明,这是一个简略易行的好路子,可以完成在线练习,计算成本低价无需额定数据,还能使 ASR 使命 LibriSpeech 960h(语音辨认技能的最威望干流的开源数据集,包含近 1000 小时的英文发音和对应文字)和 Switchboard 300h(交换机电话语音语料库)比现在最佳模型的体现更好。

SpecAugment 的“出彩”之处

首要,在模型练习之前将输入数据——音频数据的梅尔倒谱,进行图画处理,这也是 SpecAugment 这条野路出彩的根底。即对梅尔倒频谱的横轴一段时刻步长的频谱进行左或右改动翘现在黄金多少钱一克曲、或许掩蔽一段时长的谱图(时刻屏蔽,对纵向进行掩蔽)、或是某些梅尔频率的信号(频率屏蔽,对横向进行掩蔽),得到了一系列的扩增样本。

这后宫懿妃传样的处理使得模型可以学习到时刻轴上发作丢掉变形的音频、部分频率缺失的音频,以及丢掉部分语音片段的音频的特色,增加了练习模型对这些信息的处理才能,也增强猪e网模型的泛化才能。

图 | 梅尔倒频谱的扩增改换手法:从上到下依次为没有秦祥林运用增强、必定时刻步长的歪曲,频率屏蔽和时刻屏蔽。(来历新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游3:Daniel S宇直是什么意思. Park,et al/ Google Brain)

模型练习

韦文学广西乞丐简历

输入数据处理完毕后,练习语音辨认模型,这儿选用 LAS(Listen Attend and Spell networks)模型。LAS 模型主要是由 Listen雍正皇帝er 和 赤壁赋原文Speller 两个子模型组成,其间 Listener 是一个声学编码器(Encoder,搜集数据,新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游3相当于“听”),Speller 是一个根据注意力机制的解码器(Decoder,将搜集的特征翻译成字符,相当于“说”)

练习 SpecAugment 的 Listener 子模型:输入的梅尔倒谱首要经两层卷积神经网络(CNN),经最大池化且步幅为 2,得到的成果输入到 BLSTM(双向长短期替换回忆模型)中,发生尺度为 d x w 的根据注意力机制的特征。

练习 SpecAugment 的 Speller 子模型:将上一进程中根据注意力机制发生的特征向量输入到一个二层 RNN(Recurrent Neural Network)模型中,练习会集的文本已用 WPM(Word Piece Model)进行了 token 处理,运用集束查找(Beam Search),集束宽为 8,得到 token 表明的猜测文本(token 处理即分词处理,之后进行词嵌入,自然言语处理运用词嵌入来将词向量化表明)。至此,完成语音转文本进程。

提高体现

比较练习集扩增前后练习出的 LAS 模型在测验集上的词错误率(Word Error R新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游3ate,WER ),不改动任何超参数,测验成果错词率显着liguiting下降,可见无需调参,扩增练习集作用显着。

图 | 扩增练习集与否的两个模型在数据集 LibriSpeech 上有噪音测验集和无噪音测验集的体现。(来历:Daniel S. Park,et al/ Google Brain)

关于过拟合问题,尽管练习集上运用扩增的模型体现与无扩增相差并不是许多,但在开发集上,WER 有显着的下降,阐明模型泛化才能提高,牧原股份可以猜测未练习过的数据,过拟合得到处理。

眉山

图 | 扩增练习集与否的两个模型在练习干逼集、有噪音开发集和无新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游3噪音开发集集上的体现(来历:Daniel S. Park,et al/ Google Brain)

这个模型啥水平?

1)优于现有最佳 ASR 模型

扩增练习集后调整模型参数以及恰当练习迭代,使得模型体现史国良害了毕福剑到达最佳,在数据集 LibriSpeech 960h 和 Switchboard 30新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游30h 有无噪音的测验集上,扩增模型体现与现有最佳模型的错词率成果比照发现,扩增办法显着制胜。无论是传统 ASR 模型(如 HMM)仍是端到端的神经网络模型(如 CTC/ASG),选用 SpecAugment 办法练习后的 LAS 模型体现都显着更好。

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同模型的体现(来历:Daniel S. Park,et al/ Google Brain)

2)优于运用言语模型的 ASR 模型

引进运用很多纯文本语料库练习的言语模型(Language Models,LMs)可以使 ASR 模型作用大大提高,由于可以用语料库中的很多信息使模型功用更强,这也是 ASR 使命的一个通用做法。言语模型一般是独立练习的,运用 ASR 模型时需求占有必定内存进行存储,这使其难以在小型设备上运用。而 SpecAugment 模型的优势是,即便不运用言语模型也优于现有引进言语模型的 ASR 模型。这意味着言语模型的大内存问题,有了处理之路。

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同 ASR 模型引进言语模型有否的体现(来历:Daniel S. Park,et al/ Google Brain)

总结,运用改动频谱图的方法扩增音频数据样本,练习出的 ASR 模型体现极佳,优于现有最好模型,乃至超越引进言语模型,很好用。

-End-

参阅:

语料库:

http://www.openslr.org/12/

https://catalog.ldc.upenn.edu/LDC97S62

文献:

https://arxiv.org/pdf/1508.01211.pdf

https://arxiv.org/abs/1904.08779

https://arxiv.org/pdf/我心永久1904.03288.pdf

https://arxiv.org/pdf/1810.11352.pdf

https://arxiv.org/pdf/1805.03294.pdf

https://arxiv.org/pdf/1609.03193.pdf

http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf

https://iee罗丹菲explore.ieee.org/abstract/document/7050699

概念解说(wiki)

htt新加坡,简略粗暴而有用的改图:自动语音辨认数据扩增的“一条野路”,造梦西游3ps://en.wikipedia.org/wiki/Language_model

https://en.wikipedia.org/wiki/Spectrogram

https://en.wikipedia.org/wiki/Word_error_rate

https://en.wikipedia.org/wiki/Hi陈康缇dden_Markov_model

-End-

重视 DeepTech

发现改动国际的新式科技

(微信号:deeptechchina)

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。