图像识别技术“跨界” 百度语音寻新突破口

　　人工智能技术的突破往往来自于多方面技术间的融合互通。近日，百度在语音识别技术方面再获突破，将图像识别技术成功“跨界”到语音领域，大幅度提升语音识别产品性能，是继端对端语音识别后取得的另一次重大技术突破。

　　语音识别研究起源于上世纪50年代，2010年后，研究者们相继提出了基于DNN、 CNN、 LSTM等技术，使得语音识别的性能得到了突飞猛进的发展。此前，百度语音每年的模型算法都在不断更新，从DNN，到区分度模型，再到如今的CNN，百度的语音技术一直在业界中领跑。基于LSTM-CTC的声学模型也于2016年初在所有语音相关产品中得到了上线。从HMM框架到CTC框架，百度语音识别引擎的性能得到飞跃。随着深度学习近年来飞速发展，以及CNN技术在图像识别中的成功应用，以往被业界忽视的Deep CNN技术重新被语音界重视起来，百度意识到了Deep CNN对语音技术的贡献巨大，寻找到下一个突破口。

　　据介绍，百度这项技术主要是利用深层卷积神经网络（Deep CNN）应用于语音识别声学建模中，将其与基于长短时记忆单元（LSTM）和连接时序分类（CTC）的端对端语音识别技术相结合，该技术相较于工业界现有的CLDNN结构（CNN+5LSTM+DNN）的语音识别产品技术，错误率相对降低10%。

　　该技术与深度学习技术的发展密不可分。近些年来，在ImageNet竞赛中，很多深度学习技术相继提出，非常值得关注的就是在深层卷积神经网络方面的进展。这些网络结构有一个明显的发展趋势，就是越来越深的卷积神经网络层级（CNN）。CNN技术也不断刷新着图像识别的精准度，以人脸识别为例，识别准确率高达99.7%。但业界对CNN的进展在语音识别方面没有得到充分应用，作为一家在语音技术上有着深入研究的人工智能公司，百度将Deep CNN视为语音识别技术的下一个突破口。

　　与学术研究不同，百度更关注如何在基于CTC的端对端语音识别框架中，通过引入深层CNN的思想，进一步提升性能。另外，百度首次尝试在商用领域的端对端语音识别技术中引入更深层的CNN神经网络。端对端技术使用一个单独的学习算法来完成从任务输入端到输出端的所有过程，减少了中间单元以及人为干预，在海量数据的支持下模型效果提升明显。

　　值得一提的是，语音识别都是基于时频分析后的语音谱完成的，将整个语音信号分析得到的时频谱当做一张图像，就可以采用图像中已广泛应用的CNN进行识别，克服了语音信号多样性的问题，且通过引入更深层的CNN，使语音识别性能得到显著提升。

　　百度语音的研发立足点，聚焦于技术的实际应用，技术难度和实现程度更高。针对语音识别产品而言，必须具备在大规模语音数据库上体现性能提升以及具有适合语音在线识别产品运行的模型。百度采用数千小时进行实验的研究，并在近十万小时的产品语音数据库中进行验证，且充足的语音数据资源，使基于端对端技术的语音识别系统明显优于以往的框架性能。

　　除此之外，百度语音技术在数据、计算能力、算法三方面优势显著。百度拥有约10万小时的精准标注语音数据，以及基于数百个GPU的高性能计算平台。在算法方面，百度每年都在不断迭代模型算法，语音识别效果显著提升，领先业界。

　　此前，百度便利用端对端技术研发了Deep Speech 2深度语音识别技术，用于提高在嘈杂环境下语音识别的准确率。在噪音环境下，其错误率低于谷歌、微软以及苹果的语音系统。目前，百度语音识别准确率高达97%，并被美国权威科技杂志《麻省理工评论》列为2016年十大突破技术之一。另据百度语音技术部识别技术负责人李先刚透露，目前的确正在加紧Deep Speech 3 的研发工作，而本次公布的Deep CNN不排除将会是Deep Speech 3的核心组成部分。

　　除了技术突破，百度还积极推动用户使用语音交互的普及，手机百度、百度输入法、百度地图、度秘等产品都已支持语音输入功能，而此次“跨界”的Deep CNN相信很快会应用到拥有庞大用户体量的百度产品中。