EI / SCOPUS / CSCD 收录

中文核心期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

多声学场景下端到端语音识别声学编码器的自适应

刘育坤 郑霖 黎塔 张鹏远

刘育坤, 郑霖, 黎塔, 张鹏远. 多声学场景下端到端语音识别声学编码器的自适应[J]. 声学学报, 2023, 48(6): 1260-1268. doi: 10.12395/0371-0025.2022114
引用本文: 刘育坤, 郑霖, 黎塔, 张鹏远. 多声学场景下端到端语音识别声学编码器的自适应[J]. 声学学报, 2023, 48(6): 1260-1268. doi: 10.12395/0371-0025.2022114
LIU Yukun, ZHENG Lin, LI Ta, ZHANG Pengyuan. The self-adaptation of acoustic encoder in end-to-end automatic speech recognition under diverse acoustic scenes[J]. ACTA ACUSTICA, 2023, 48(6): 1260-1268. doi: 10.12395/0371-0025.2022114
Citation: LIU Yukun, ZHENG Lin, LI Ta, ZHANG Pengyuan. The self-adaptation of acoustic encoder in end-to-end automatic speech recognition under diverse acoustic scenes[J]. ACTA ACUSTICA, 2023, 48(6): 1260-1268. doi: 10.12395/0371-0025.2022114

多声学场景下端到端语音识别声学编码器的自适应

doi: 10.12395/0371-0025.2022114
基金项目: 国家重点研发计划项目(2020AAA0108002)和中国科学院声学研究所自主部署“目标导向”类项目(MBDX202106)资助。
详细信息
    通讯作者:

    张鹏远, zhangpengyuan@hccl.ioa.ac.cn

  • PACS: 43.72

The self-adaptation of acoustic encoder in end-to-end automatic speech recognition under diverse acoustic scenes

  • 摘要:

    提出了一种面向多样化声学场景自适应设计声学编码器的方法(SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异, 适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术, 提高了编码器设计的有效性, 从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明, 通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。

     

  • 图 1  三种端到端语音识别框架 (a) CTC框架; (b) AED框架; (c) RNN-T框架

    图 2  (a) SAE编码器完整的框架图; (b) 可搜索的SAE模块的具体结果; (c) Aishell-1数据集上的一个搜索样例

    图 3  Aishell-1上的损失函数变化曲线 (a)使用softmax; (b)使用Gumbel-softmax

    图 4  Aishell-1语音添加噪声前后语音频谱特征变化示例 (a) 纯净语音; (b) 添加距离5 m的混响和20 dB的噪声

    表  1  SAE编码器与手工编码器在CTC框架下的字错误率CER对比 (%)

    模型结构结构设置Aishell-1HKUSTHub5’00
    参数量devtest参数量test参数量swbd1callhm
    TransformerH48.19 M7.17.78.19 M24.18.19 M13.424.7
    H88.19 M6.87.58.19 M23.78.19 M13.725.2
    H168.19 M6.87.48.19 M23.98.19 M13.625.0
    ConformerH4C79.68 M5.86.49.68 M23.49.68 M11.8*22.1
    H4C159.75 M6.0*6.6*9.75 M22.8*9.75 M12.022.4
    H4C319.92 M6.57.29.92 M23.79.92 M11.8*22.0*
    H8C159.75 M6.0*6.79.75 M22.8*9.75 M12.322.9
    H16C159.75 M6.26.89.75 M23.49.75 M12.222.7
    随机搜索Searched9.96 M6.36.09.13 M23.99.69 M12.523.2
    SAE (无预训练)Searched9.43 M5.96.49.84 M22.89.39 M11.822.0
    SAE (softmax)Searched9.23 M6.16.79.97 M23.49.57 M12.022.3
    SAESearched9.11 M5.66.19.07 M22.19.78 M11.521.5
    下载: 导出CSV

    表  2  SAE编码器与手工编码器在AED框架下的字错误率CER对比 (%)

    模型结构结构设置Aishell-1HKUSTHub5’00
    参数量devtest参数量test参数量swbd1callhm
    TransformerH48.19 M5.76.38.19 M22.88.19 M8.417.6
    H88.19 M6.26.88.19 M22.68.19 M8.517.1
    H168.19 M5.45.98.19 M22.68.19 M8.718.0
    ConformerH4C79.68 M5.35.99.68 M21.59.68 M8.116.0
    H4C159.75 M5.1*5.7*9.75 M21.4*9.75 M8.216.3
    H4C319.92 M5.25.89.92 M21.89.92 M8.0*15.9*
    H8C159.75 M5.25.7*9.75 M21.79.75 M8.116.2
    H16C159.75 M5.1*5.7*9.75 M22.09.75 M8.216.5
    随机搜索Searched9.38 M5.46.19.52 M22.39.09 M8.417.0
    SAE (无预训练)Searched9.46 M5.05.59.93 M21.49.52 M8.016.0
    SAE (softmax)Searched9.77 M5.25.79.29 M21.79.43 M8.216.5
    SAESearched9.05 M4.85.39.11 M21.09.82 M7.715.3
    下载: 导出CSV

    表  3  SAE编码器与手工编码器在RNN-T框架下的字错误率CER对比 (%)

    模型结构结构设置Aishell-1HKUSTHub5’00
    参数量devtest参数量test参数量swbd1callhm
    TransformerH48.19 M6.57.18.19 M27.88.19 M11.320.5
    H88.19 M6.36.88.19 M27.98.19 M11.120.4
    H168.19 M6.37.08.19 M27.68.19 M11.520.9
    ConformerH4C79.68 M6.0*6.89.68 M27.29.68 M10.3*20.3
    H4C159.75 M6.0*6.89.75 M26.6*9.75 M10.519.7
    H4C319.92 M6.16.89.92 M26.89.92 M10.720.1
    H8C159.75 M6.0*6.7*9.75 M27.09.75 M10.719.6*
    H16C159.75 M6.0*6.7*9.75 M27.29.75 M10.420.0
    随机搜索Searched9.71 M6.26.99.84 M27.29.47 M10.920.5
    SAE (无预训练)Searched9.18 M6.06.59.81 M26.49.32 M10.619.9
    SAE (softmax)Searched9.02 M6.06.89.39 M27.19.55 M10.219.4
    SAESearched9.85 M5.66.29.33 M25.99.72 M9.818.8
    下载: 导出CSV

    表  4  SAE编码器与手工编码器训练时间成本对比(单位: h)

    Aishell-1HKUSTSWBD
    CTCAEDRNN-TCTCAEDRNN-TCTCAEDRNN-T
    手工基线训练156.3195.4231.5210.8265.0316.0476.6598.1725.7
    SAE预训练2.12.53.22.83.44.16.27.99.3
    SAE搜索12.515.018.816.420.524.737.246.760.3
    SAE重训练20.625.131.427.434.241.162.177.694.1
    SAE总耗时35.242.653.446.658.169.9105.5132.2163.7
    下载: 导出CSV

    表  5  不同SAE编码器与手工编码器在Aishell-Noisy上的字错误率CER对比 (%)

    编码器名称结构设置Aishell-Noisy dev
    TransformerH420.1
    TransformerH819.8
    TransformerH1620.2
    ConformerH4C719.1
    ConformerH4C1517.3
    ConformerH4C3117.1*
    ConformerH8C1518.0
    ConformerH16C1517.5
    SAEAishell-1搜索获得17.8
    SAEAishell-Noisy搜索获得15.0
    下载: 导出CSV

    表  6  消融搜索空间与完整搜索空间在Aishell-1上的字错误率CER对比 (%)

    ·CTCAEDRNN-T
    devtestdevtestdevtest
    Transformer (best)6.87.45.45.96.36.8
    Conformer (best)5.86.45.15.76.06.7
    固定MHA为MHSA45.96.65.05.55.96.4
    固定CNN为CNN155.86.35.25.76.16.8
    固定FFN为FFN10245.66.14.85.35.66.2
    堆叠相同模块5.86.35.15.75.96.6
    SAE5.66.14.85.35.66.2
    下载: 导出CSV
  • [1] 刘加, 陈谐, 单煜翔, 等. 大规模词表连续语音识别引擎紧致动态网络的构建. 清华大学学报(自然科学版), 2012; 52(11): 1530—1534 doi: 10.16511/j.cnki.qhdxxb.2012.11.012
    [2] 刘加. 汉语大词汇量连续语音识别系统研究进展. 电子学报, 2000; 28(1): 85—91 doi: 10.3321/j.issn:0372-2112.2000.01.023
    [3] Povey D. Discriminative training for large vocabulary speech recognition. Doctoral dissertation, University of Cambridge, 2003
    [4] 倪崇嘉, 刘文举, 徐波. 汉语大词汇量连续语音识别系统研究进展. 中文信息学报, 2009; 23(1): 112—123, 128 doi: 10.3969/j.issn.1003-0077.2009.01.018
    [5] 刘娟宏, 胡彧, 黄鹤宇. 端到端的深度卷积神经网络语音识别. 计算机应用与软件, 2020; 37(4): 192—196 doi: 10.3969/j.issn.1000-386x.2020.04.031
    [6] 王子龙, 李俊峰, 张劭韡, 等. 基于递归神经网络的端到端语音识别. 计算机与数字工程, 2019; 47(12): 3099—3106 doi: 10.3969/j.issn.1672-9722.2019.12.031
    [7] 唐海桃, 薛嘉宾, 韩纪庆. 一种多尺度前向注意力模型的语音识别方法. 电子学报, 2020; 48(7): 1255—1260 doi: 10.3969/j.issn.0372-2112.2020.07.002
    [8] 郭家兴, 韩纪庆. 一种RNN-T与BERT相结合的端到端语音识别模型. 智能计算机与应用, 2021; 11(2): 169—173 doi: 10.3969/j.issn.2095-2163.2021.02.037
    [9] 张开生, 赵小芬. 复杂环境下基于自适应深度神经网络的鲁棒语音识别. 计算机工程与科学, 2022; 44(6): 1105—1113 doi: 10.3969/j.issn.1007-130X.2022.06.019
    [10] Vielzeuf V, Antipov G. Are E2E ASR models ready for an industrial usage? arXiv preprint: 2112.12572, 2021
    [11] 杨威, 胡燕. 混合CTC/attention架构端到端带口音普通话识别. 计算机应用研究, 2021; 38(3): 755—759 doi: 10.19734/j.issn.1001-3695.2020.02.0036
    [12] Jain M, Schubert K, Mahadeokar J, et al. RNN-T for latency controlled ASR with improved beam search. arXiv preprint: 1911.01629, 2019
    [13] Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. 23rd international conference on Machine learning, 2006: 369—376
    [14] 刘晓峰, 宋文爱, 陈小东, 等. 基于多核卷积融合网络的BLSTM-CTC语音识别. 计算机应用与软件, 2021; 38(11): 167—173 doi: 10.3969/j.issn.1000-386x.2021.11.026
    [15] 沈逸文, 孙俊. 结合Transformer的轻量化中文语音识别. 计算机应用研究, 2023; 40(2): 424—429 doi: 10.19734/j.issn.1001-3695.2022.06.0340
    [16] Liu H, Simonyan K, Yang Y. DARTS: Differentiable architecture search. International Conference on Learning Representations, 2018
    [17] So D, Le Q, Liang C. The evolved transformer. International Conference on Machine Learning, PMLR, 2019: 5877—5886
    [18] 姚潇, 史叶伟, 霍冠英, 等. 基于神经网络结构搜索的轻量化网络构建. 模式识别与人工智能, 2021; 34(11): 1038—1048 doi: 10.16451/j.cnki.issn1003-6059.202111007
    [19] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. 31st International Conference on Neural Information Processing Systems, 2017: 6000—6010
    [20] 李业良, 张二华, 唐振民. 基于混合式注意力机制的语音识别研究. 计算机应用研究, 2020; 37(1): 131—134 doi: 10.19734/j.issn.1001-3695.2018.06.0492
    [21] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolution-augmented transformer for speech recognition. arXiv preprint: 2005.08100, 2020
    [22] Sanger T D. Optimal unsupervised learning in a single-layer linear feedforward neural network. Neural networks, 1989; 2(6): 459—473 doi: 10.1016/0893-6080(89)90044-0
    [23] 朱学超, 张飞, 高鹭, 等. 基于残差网络和门控卷积网络的语音识别研究. 计算机工程与应用, 2022; 58(7): 185—191 doi: 10.3778/j.issn.1002-8331.2108-0265
    [24] Jang E, Gu S, Poole B. Categorical reparameterization with gumbel-softmax. arXiv preprint: 1611.01144, 2016
    [25] Bu H, Du J, Na X, et al. Aishell-1: An open-source Mandarin speech corpus and a speech recognition baseline. 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment, Seoul, Korea, IEEE, 2017
    [26] Liu Y, Fung P, Yang Y, et al. HKUST/MTS: A very large scale mandarin telephone speech corpus. International Symposium on Chinese Spoken Language Processing, Springer, Berlin, Heidelberg, 2006: 724—735
    [27] Godfrey J J, Holliman E C, McDaniel J. SWITCHBOARD: Telephone speech corpus for research and development. IEEE International Conference on Acoustics, Speech, and Signal Processing, IEEE Computer Society, San Francisco, CA, USA, 1992: 517—520
    [28] Watanabe S, Hori T, Karita S, et al. Espnet: End-to-end speech processing toolkit. arXiv preprint: 1804.00015, 2018
    [29] Maciejewski M, Wichern G, McQuinn E, et al. WHAMR!: Noisy and reverberant single-channel speech separation. IEEE International Conference on Acoustics, Speech and Signal Processing, Barcelona, Spain, 2020: 696—700
  • 加载中
图(4) / 表(6)
计量
  • 文章访问数:  57
  • HTML全文浏览量:  27
  • PDF下载量:  24
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-10-31
  • 修回日期:  2023-01-16
  • 刊出日期:  2023-11-02

目录

    /

    返回文章
    返回