EI / SCOPUS / CSCD 收录

中文核心期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

时间及通道双维序列注意力音乐声源分离方法

李锵 陈德昱 关欣

李锵, 陈德昱, 关欣. 时间及通道双维序列注意力音乐声源分离方法[J]. 声学学报, 2023, 48(3): 588-598. doi: 10.15949/j.cnki.0371-0025.2023.03.010
引用本文: 李锵, 陈德昱, 关欣. 时间及通道双维序列注意力音乐声源分离方法[J]. 声学学报, 2023, 48(3): 588-598. doi: 10.15949/j.cnki.0371-0025.2023.03.010
LI Qiang, CHEN Deyu, GUAN Xin. Music source separation method based on time and channel dual-dimensional sequential attention[J]. ACTA ACUSTICA, 2023, 48(3): 588-598. doi: 10.15949/j.cnki.0371-0025.2023.03.010
Citation: LI Qiang, CHEN Deyu, GUAN Xin. Music source separation method based on time and channel dual-dimensional sequential attention[J]. ACTA ACUSTICA, 2023, 48(3): 588-598. doi: 10.15949/j.cnki.0371-0025.2023.03.010

时间及通道双维序列注意力音乐声源分离方法

doi: 10.15949/j.cnki.0371-0025.2023.03.010
基金项目: 国家自然科学基金项目(61471263)、天津市自然科学基金项目(16JCZDJC31100)和天津大学自主创新基金项目(2021XZC-0024)资助.
详细信息
    通讯作者:

    关欣, guanxin@tju.edu.cn

  • 中图分类号: 43.60

Music source separation method based on time and channel dual-dimensional sequential attention

  • 摘要:

    针对音乐中乐器声源表征特异性不足的问题, 结合乐器声源与曲式内容相关的结构特征, 提出了双维序列注意力/时域端到端音乐源分离方法。首先, 由于各乐器声源在曲式不同部分的出现具有显著规律性, 因此从时间及特征通道两个维度, 对特征基函数进行差异化注意力加权。其次, 在损失函数中引入频率多分辨因子, 同时从时域及频域衡量分离后声源和理想声源间的差异。在MUSDB18数据集上的实验结果表明, 同时强调声源的时域曲式结构特征和离散谐波特征, 可以进一步改善乐器声源分离效果。与目前最先进的时域端到端音乐源分离方法Demucs相比, 信噪比指标提升了0.40 dB, 且在鼓和低音等声源的分离上表现尤为突出, 鼓声源信噪比指标提升0.13 dB, 低音声源信噪比指标提升0.60 dB。充分利用声源的语义内容及声学特征等多维度先验知识, 可以进一步提升声源表征的特异性, 从而提升声源的可分离程度。

     

  • 图 1  DDSA-Unet原理框图

    图 2  DDSA通道注意力模块原理框图

    图 3  DDSA时间注意力模块原理框图

    图 4  时间注意力机制作用示意图

    图 5  DDSA整体原理框图

    图 6  “Air Traffic”频谱图及时间注意力参数权重图

    图 7  音乐片段“Al James”分离前后波形图对比 (a)分离后低音; (b)原始低音; (c)分离后鼓声; (d)原始鼓声; (e)分离后人声; (f)原始人声音乐; (g)分离后其他乐器; (h)原始其他乐器

    图 8  音乐片段“Al James”分离前后语谱图对比 (a)分离后低音; (b)原始低音; (c)分离后鼓声; (d)原始鼓声; (e)分离后人声; (f)原始人声音乐; (g)分离后其他乐器; (h)原始其他乐器

    表  1  DDSA-Unet网络参数

    网络模块网络层网络参数
    广义编码层ii = {1, 2, 3, 4, 5, 6}一维卷积[8,4,64×2i − 1]
    组归一化[32,64×2i − 1]
    通道序列注意力块[16,64×2i − 1]
    一维卷积[1,1,64×2i]
    组归一化[32,64×2i]
    循环网络层简单循环单元64
    广义解码层ii = {1, 2, 3, 4, 5, 6}一维卷积[1,1,64×2i]
    组归一化[32,64×2i]
    一维卷积[8,4,64×2i − 1] (i < 6), [8,4,8] (i = 6)
    组归一化[32,64×2i − 1] (i < 6), N/A (i = 6)
    通道序列注意力块[16,64×2i − 1] (i < 6), N/A (i = 6)
    下载: 导出CSV

    表  2  双维度注意力块不同池化方式性能对比

    网络模型SDR (dB)SAR (dB)SIR (dB)
    DDSA-Unet (混合池化)5.395.8611.01
    DDSA-Unet (最大池化)5.265.5310.65
    DDSA-Unet (平均池化)5.585.9410.94
    下载: 导出CSV

    表  3  双维度注意力块不同排列方式不同池化方式模型性能对比

    网络模型SDR (dB)SAR (dB)SIR (dB)
    DDSA-Unet (并行, 平均池化)5.475.8810.41
    DDSA-Unet (通道模块在前,平均池化)5.585.9410.94
    DDSA-Unet (时间模块在前,平均池化)5.345.8110.18
    DDSA-Unet (并行, 最大池化)5.125.8110.41
    DDSA-Unet (通道模块在前, 最大化)5.265.5310.65
    DDSA-Unet (时间模块在前, 最大池化)4.985.6510.21
    DDSA-Unet (并行, 混合池化)5.375.7410.07
    DDSA-Unet (通道模块在前, 混合池化)5.395.8610.91
    DDSA-Unet (时间模块在前, 混合池化)5.105.619.96
    下载: 导出CSV

    表  4  采用不同注意力块的模型性能对比

    网络模型批尺寸训练速度(min)SDR(dB)SAR(dB)SIR(dB)
    DDSA-Unet919.05.585.9410.94
    SE-Unet917.95.385.9510.87
    SK-Unet619.45.215.8410.38
    下载: 导出CSV

    表  5  不同损失函数网络模型性能对比

    损失函数范数形式SDR (dB)SAR (dB)SIR (dB)
    多分辨率STFT5.746.0211.07
    L25.535.9210.32
    Smooth L15.415.8710.77
    L15.585.9410.94
    L1 (L2正则化)5.485.9110.48
    L2 (L2正则化)5.385.8710.57
    下载: 导出CSV

    表  6  不同结构网络模型性能对比

    网络模型通道数SDR (dB)SAR (dB)SIR (dB)
    Demucs645.345.7311.02
    Demucs1005.586.0810.39
    DDSA-Unet (L1)645.585.9410.94
    Demucs (多分辨率STFT)645.555.9110.74
    DDSA-Unet (多分辨率STFT)645.746.0211.07
    下载: 导出CSV

    表  7  在MUSDB18数据集下不同模型的性能对比

    模型SDR (dB)SAR (dB)SIR (dB)
    平均低音人声其他平均平均
    Wave-U-Net3.234.223.212.253.254.496.26
    Open-Unmix5.335.735.236.324.025.9010.49
    Demucs(100通道)5.586.085.836.294.126.0810.39
    DDSA-Unet5.746.216.436.313.996.0211.07
    下载: 导出CSV
  • [1] 尹辉, 谢湘, 匡镜明. 基于听觉模型与自适应分数阶Fourier变换的声学特征在语音识别中的应用. 声学学报, 2012; 37(1): 97—103 doi: 10.15949/j.cnki.0371-0025.2012.01.011
    [2] Zapata J R, Davies M, Gomez E. Multi-feature beat tracking. IEEE Trans. Audio Speech Lang. Process., 2014; 22(4): 816—825 doi: 10.1109/TASLP.2014.2305252
    [3] Chang S, Lee K. Lyrics-to-audio alignment by unsupervised discovery of repetitive patterns in vowel acoustics. IEEE Access, 2017; 5: 16635—16648 doi: 10.1109/ACCESS.2017.2738558
    [4] Rafii Z, Liutkus A, Stöter F, et al. An overview of lead and accompaniment separation in music. IEEE/ACM Trans. Audio Speech Lang. Process., 2018; 26(8): 1307—1335 doi: 10.1109/TASLP.2018.2825440
    [5] Grais E M, Roma G, Simpson A J R, et al. Two-stage single-channel audio source separation using deep neural networks. IEEE/ACM Trans. Audio Speech Lang. Process., 2017; 25(9): 1773—1783 doi: 10.1109/TASLP.2017.2716443
    [6] Stoller D, Ewert S, Dixon S. Wave-U-Net: A multi-scale neural network for end-to-end audio source separation. Proc. ISMIR, 2018
    [7] Vincent E, Gribonval R, Févotte C. Performance measurement in blind audio source separation. IEEE Trans. Audio Speech Lang. Process., 2006; 14(4): 1462—1469 doi: 10.1109/TSA.2005.858005
    [8] Weng W, Zhu X. INet: convolutional networks for biomedical image segmentation. IEEE Access, 2021; 9: 16591—16603 doi: 10.1109/ACCESS.2021.3053408
    [9] 张天, 张天骐, 葛宛营, 等. 融合声源分离及反复结构模型的音乐分离方法. 声学学报, 2020; 45(5): 707—715 doi: 10.15949/j.cnki.0371-0025.2020.05.010
    [10] Bellur A, Elhilali M. Bio-mimetic attentional feedback in music source separation. IEEE International Conference on Acoustics, Speech and Signal Processing, 2020: 8718—8722
    [11] 汪斌, 陈宁. 基于残差注意力U-Net结构的端到端歌声分离模型. 华东理工大学学报(自然科学版), 2021; 47(5): 619—626 doi: 10.14135/j.cnki.1006-3080.20200903001
    [12] 李相莲, 李明, 刘若伦, 等. 基于音色单元分布的音乐结构分析. 声学学报, 2010; 35(2): 276—281 doi: 10.15949/j.cnki.0371-0025.2010.02.028
    [13] Perez-Lapillo J, Galkin O, Weyde T. Improving singing voice separation with the wave-u-net using minimum hyperspherical energy. IEEE International Conference on Acoustics, Speech and Signal Processing, 2020: 3272—3276
    [14] Garoufis C, Zlatintsi A, Maragos P. HTMD-Net: A hybrid masking-denoising approach to time-domain monaural singing voice separation. 29th European Signal Processing Conference, IEEE, 2021: 341—345
    [15] Défossez A, Usunier N, Bottou L, et al. Music source separation in the waveform domain. arXiv preprint: 1911.13254, 2019
    [16] Yamamoto R, Song E, Kim J M. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. IEEE International Conference on Acoustics, Speech and Signal Processing, 2020: 6199—6203
    [17] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module. European Conference on Computer Vision, 2018: 3—19
    [18] Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 3146—3154
    [19] Rafii Z, Liutkus A, Stöter F R, et al. MUSDB18 − a corpus for music separation. 2017
    [20] Uhlich S, Porcu M, Giron F, et al. Improving music source separation based on deep neural networks through data augmentation and network blending. IEEE International Conference on Acoustics, Speech and Signal Processing, 2017: 261—265
    [21] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. IEEE conference on computer vision and pattern recognition, 2018: 7132—7141
    [22] Li X, Wang W, Hu X, et al. Selective kernel networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 510—519
    [23] Stöter F R, Uhlich S, Liutkus A, et al. Open-Unmix − A reference implementation for music source separation. The Journal of Open Source Software, 2019; 4(41): 1667—1667 doi: 10.21105/joss.01667
    [24] Takahashi N, Goswami N, Mitsufuji Y. MMDenseLSTM: An efficient combination of convolutional and recurrent neural networks for audio source separation. 16th International Workshop on Acoustic Signal Enhancement, IEEE, 2018: 106—110
  • 加载中
计量
  • 文章访问数:  33
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-02-16
  • 修回日期:  2022-06-07
  • 刊出日期:  2023-05-11

目录

    /

    返回文章
    返回