Low computational cost end-to-end speech recognition based on discrete wavelet transform and subband decoupling
-
摘要:
针对目前端到端语音识别模型计算资源占用过高的问题, 提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法(WLformer), 大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Conformer模型为基础, 在模型中引入所提出的基于DWT的信号压缩模块, 该模块通过去除模型中间层表征内信息量较少的高频成分从而对该表征进行压缩, 进而降低模型的计算资源占用。此外还提出了DWT子带解耦前馈网络的子模块结构以替换原模型中部分前馈网络, 从而进一步降低模型的计算量。在Aishell-1、HKUST和LibriSpeech三个常用的中英文数据集上的实验表明, 提出的WLformer相较于Conformer的显存占用相对下降47.4%, 计算量Gflops相对下降39.2%, 同时还获得了平均13.1%的错误率改善。此外, WLformer在计算资源占用少于其他主流端到端语音识别模型的情况下同样取得了更好的识别性能, 进一步验证了所提方法的有效性。
Abstract:To solve the problem of high computational cost of the current end-to-end automatic speech recognition (E2E ASR), a method (WLformer) that integrates discrete wavelet transform (DWT) with E2E ASR is proposed, which can significantly reduce the computing resource usage while improving performance. WLformer is built upon the mostly used Conformer model. WLformer introduces the proposed DWT Signal Compression Module, which compresses the model’s middle hidden representation by removing its high-frequency components with less information. In addition, a new module structure named DWT Subband Decoupling Feed-Forward Network (DSD-FFN) is proposed to further reduce the model’s computational cost. Experiments are conducted on Aishell-1, HKUST, and LibriSpeech datasets. The results show that WLformer achieves 47.4% relative memory usage reduction and 39.2% relative Gflops reduction, and achieves an average 13.1% relative character/word error rate reduction compared to Conformer. In addition, WLformer also achieves better recognition performance while occupying fewer computing resources than other mainstream E2E ASR models, which further verifies its effectiveness.
-
引言
声波目前是唯一能够进行水下中远程可靠通信的载体。与地面无线通信信道相比, 深海远程水声信道受到有限的带宽、严重的传输损耗、显著的多径传播、多普勒频移、高环境噪声和低接收信噪比的影响, 使深海远程水声通信极具挑战性[1,2]。准确的信道估计和可靠的信道均衡对深海远程水声通信系统的性能至关重要。
水声信道的许多特征已被用以改善估计精度。首先, 水声信道作为典型的稀疏信道, 其大多数路径幅值趋于0, 能量仅集中在少数路径上, 因而其估计问题可以转换为稀疏信号重构问题[3]。相比于不使用先验知识的传统信道估计方法, 如最小二乘算法(LS), 通过合理利用稀疏性, 稀疏信道估计可显著提高算法的收敛速度和估计精度。近年来, 受到压缩感知(CS)[4]理论的启发, 很多稀疏信道估计方法被提出用于水声信道估计。文献[5]首先研究了水声信道的稀疏性, 并通过试验验证了不同稀疏信道估计算法的有效性。文献[6]将压缩感知理论应用于多载波水声通信系统, 通过正交匹配追踪算法(OMP)和基追踪(BP)算法进行信道估计, 仿真和试验结果证明了基追踪和正交匹配追踪等算法相比于传统信道估计算法的优越性。文献[7]提出一种基于深海信道稀疏性的块间迭代信道估计方法, 试验结果表明所提方法在导频插入密度减半的条件下优于传统方法。文献[8]将正交匹配追踪及其改进算法, 如压缩采样匹配追踪(CoSaMP)、稀疏自适应匹配追踪(SAMP)等算法应用于稀疏时变水声信道估计中。但正交匹配追踪等算法需要提前预设信道稀疏度, 这在实际通信场景中是无法确切预知的。
文献[9]提出改进的比例型归一化最小均方算法(IPNLMS), 随后Yang等将其应用单载波水声通信系统进行迭代信道估计[10]。文献[11]用
l0 范数的近似代替l1 范数比例型递归最小二乘(l1 -PRLS)中的l1 范数, 提出了l0 -PRLS算法用于稀疏水声信道估计。文献[12]提出多任务稀疏贝叶斯学习(SBL)信道估计算法, 利用子块之间的时间相关性和水声信道的稀疏性提高信道估计性能。文献[13]将广义近似高斯消息传递稀疏贝叶斯学习引入水声信道估计, 有效降低稀疏贝叶斯学习的复杂度。然而, 上述算法仅利用了水声信道的稀疏特性, 忽略了簇结构带来的增益。在深海分层结构、地形特征等综合影响下, 深海水声信道呈现稀疏多径簇分布结构。文献[14]利用簇稀疏水声信道的结构特性对信道的先验分布进行建模, 借助贝叶斯推断得到信道模型参数的后验分布,采用马尔科夫链蒙特卡罗采样器得到稀疏水声信道的最大后验估计。文献[15]提出簇自适应信道估计方法, 簇内路径在不同块之间共享相同的幅度、时延和多普勒频移, 而不同簇之间独立变化。文献[16]提出了非均匀
l21 范数约束的改进比例仿射算法以改进非均匀簇稀疏水声信道估计性能。文献[17]基于信道簇稀疏特点, 提出两种信道估计算法用于改进脉冲噪声下的水声信道估计性能。文献[18]利用深海远程信道在一定时间内具有相关性并呈较稳定簇结构特点, 提出簇约束分布式压缩感知信道估计方法。但这些方法均需要簇信息的先验知识, 例如簇大小、簇位置和簇数量。因此, 簇的准确检测对于信道估计性能至关重要。但是目前水声信道的簇检测研究较为缺乏, 常用的方法为page检测[19]。但page检测受参数影响较大, 深海远程水声信道的时变性和低接收信噪比大大增加了参数设置的难度。自适应簇结构稀疏信号恢复算法在信号处理领域已被用于簇结构稀疏信号重构[20]。文献[20]使用局部Beta过程引入簇结构, 然后以自适应方式进行更新, 推导自适应算法估计时变的簇结构稀疏信号。借鉴该思想, 本文将实值稀疏信号重构问题重新表述为复值稀疏信道估计问题, 提出自适应簇稀疏贝叶斯学习(ACSBL )信道估计方法。建立分层贝叶斯模型, 该模型同时利用稀疏先验和簇结构先验。通过变分贝叶斯推断获得统计变量的自适应更新公式, 所提算法可以在不知道簇大小、簇数量和簇位置的情况下自适应地估计簇结构稀疏信道。
可靠的信道均衡技术是影响深海远程水声通信可靠性的另一关键因素。鉴于非相干检测的抗噪声和抗衰落能力, FSK调制和扩频最先被应用于远程水声通信且取得了较好的效果[21-23]。但FSK和扩频等技术频带利用率低, 无法实现高速率通信。文献[24]采用大孔径水平阵列提高角度分辨率, 将BPSK/QPSK与波束分集结合, 实现了550 km范围、数据率为50 bit/s的深海远程通信。文献[25]提出了基于Ludy Transform编码的联合迭代均衡译码方法, 利用LT编码无固定编码速率、与信道和通信节点无关等特性, 通过联合迭代均衡译码进一步提高了通信效率。
单载波水声通信由于峰均功率比(PAPR)低, 对频偏不敏感等优势成为近年来水声通信研究的热点[26,27]。单载波时域均衡由于其更好的带宽效率和更灵活的处理方式已被成功应用于水声通信[1,27,28]。文献[27]提出一种用于深海远程单阵元水声通信的低复杂度逐多径簇联合均衡方法, 在30 km的通信距离中实现了通信速率为4000 bit/s的单阵元无误码通信。文献[28] 针对深海垂直水声通信提出了一种改进的比例归一化最小误码率算法, 在马里亚纳海约10500 m的垂直通信范围内实现无差错传输。单载波频域均衡(SC-FDE) 因其能够实现与正交频分复用(OFDM)相近的误码率性能及较低的实现复杂度, 近年来在单载波水声通信中广受关注[29]。尽管SC-FDE在时不变和慢时变信道环境中性能良好, 但其在快时变水声信道中的准静态假设失效, 导致性能显著退化[30]。
基于时延–多普勒域(DD)信道由于其近似与时间无关的特点, 近年来提出了正交时频空间调制(OTFS)等新兴调制方式以改善高速移动环境下通信性能[31,32]。受其启发, 本文提出一个时延–多普勒域Turbo均衡器(DD-TEQ), 联合时域ACSBL信道估计器用于单载波深海远程通信。所提均衡方法通过酉变换将ACSBL估计得到的时变信道转换为时延–多普勒域中的准静态信道, 增强了单载波系统处理快速时变信道的能力。此外, 通过酉变换实现时延–多普勒域均衡器和时域解码器之间的跨域软信息交互, 降低了错误传播概率, 提高了迭代增益。仿真结果验证了所提方法应用于深海远程水声通信的适用性和鲁棒性。深海远程试验结果表明, 所提方法在324.9 km和595.1 km的通信距离中实现了无差错传输, 可有效应用于深海远程水声通信。
1. 系统模型
1.1 深海簇稀疏信道模型
声波在深海长距离传输时通常以成簇的形式到达接收端, 不同的簇分别经由海底、海面反射和折射以及声道轴直达路径组成。图1为某海域实测信道冲激响应, 由明显可分辨的3簇多径组成, 呈现明显的簇稀疏结构, 第1簇和第2, 3簇之间的时延分别约为400 ms和660 ms, 具有时延扩展长, 多径簇结构简单的特点。
双选择性衰落水声信道通过射线模型建模为
h(t,τ)=P∑p−1Ap(t)δ(τ−τp(t)), (1) 其中,
P 为多径数,τp(t)=τp−apt 为多径时延,Ap ,τp ,ap 分别为第p 条路径的幅值、时延和多普勒因子。进一步, 将信道模型表述为具有C 个簇的子信道:h(t,τ)=h1(t,τ)+h2(t,τ−τ2)+⋯+hC(t,τ−τC), (2) 其中,
hC(t,τ−τC) 为第C 簇的信道冲激响应,τC 为第C 簇与第1簇之间的时延。联合模型(1)和模型(2), 具有C个独立簇, 各簇内有Pc条路径的双选水声信道模型表示为h(t,τ)=C∑c=1Pc∑p=1Ac,pδ(τ−(τc,p−ac,pt)), (3) 其中,
∑Cc=1Pc=P 。1.2 单载波水声通信系统模型
单载波已调信号通过幅度和相位携带信息, 收发系统如图2所示。发射端信源比特经过信道编码产生编码比特。为了避免数据传输期间的连续突发错误以及所传输的信号不能在接收机正确恢复的情况, 使用随机交织器对编码序列的初始顺序进行加扰, 从而产生交织的编码序列。采用
2Q 阶QAM符号映射, 每Q 个比特{{\boldsymbol{d}}_k} = [{d_{k,1}},{d_{k,2}},\cdots,{d_{k,Q}}] 被映射为1个QAM符号, 其星座图集合为\mathcal{A} = [ \alpha _1,{\alpha _2},\cdots,{\alpha _{{2^Q}}}] 。经过单载波调制后, 连续时间基带发射信号表示为s(t) = \sum_{k = 0}^{K-1} x(k) g_{\mathrm{T}_{\mathrm{x}}}\left(t-k T_{s}\right) , (4) 其中,
{g_{{\text{Tx}}}}(t) 表示发射脉冲整形滤波器,{T_s} 为码元持续时间,x(k) 为待传输QAM符号。假设接收端完美同步, 经多普勒估计与补偿、载波解调和低通滤波后的接收信号表示为
r(t) = s(t)\ast h(t,\tau ) + w(t) = {\displaystyle {\int }_{-\infty }^{\infty }h(t,\tau )s(t-\tau )\mathrm{d}\tau + w(t),} (5) 其中,
* 表示线性卷积,w(t) 是均值为0, 方差为{\sigma ^2} 的加性高斯白噪声。为了方便, 后续算法推导在离散域进行, 因此对连续时间接收信号在t = k{{\varDelta }}t 处进行采样, 得到离散接收信号:y(k) \triangleq r(k{{\varDelta }}t) = \int_{ - \infty }^\infty {h(k{{\varDelta }}t,\tau )s(k{{\varDelta }}t - \tau )\mathrm{d}\tau + w(k{{\varDelta }}t)} , (6) 其中,
h(k{{\varDelta }}t,\tau ) \approx \sum\nolimits_{l = 0}^{L - 1} {h(k{{\varDelta }}t,{\tau _l})\delta (\tau - {\tau _l})} ,L 表示信道长度,{\tau _l} \triangleq {\tau _0} + l{{\varDelta }}\tau 是采样时延,{\tau _0} 是初始参考时延,{{\varDelta }}t 和{{\varDelta }}\tau 分别是时间和时延的采样间隔。\delta (\tau - {\tau _l}) 是Dirac\delta 函数。根据Dirac\delta 函数性质, 最终得到离散域接收信号为\begin{split} y(k) = & \int_{ - \infty }^\infty {\sum\limits_{l = 0}^{L - 1} {h(k{{\varDelta }}t,{\tau _l})\delta (\tau - {\tau _l})} s(k{{\varDelta }}t - \tau )\mathrm{d}\tau + w(k{{\varDelta }}t)} = \\& {\text{ }}\sum\limits_{l = 0}^{L - 1} {h(k{{\varDelta }}t,{\tau _l})s(k{{\varDelta }}t - {\tau _l})} + w(k{{\varDelta }}t) = \\& {\text{ }}\sum\limits_{l = 0}^{L - 1} {h(k,l)x(k - l)} + w(k), \\[-1pt] \end{split} (7) 其中,
h(k,l) \triangleq h(k{{\varDelta }}t,{\tau _l}) 为第k 时刻在第l 个时延抽头位置的离散信道冲激响应,x(k - l) \triangleq s(k{{\varDelta }}t - {\tau _l}) 。离散噪声w(k) 为w(t) 在t = k{{\varDelta }}t 处的采样值, 其统计特性与w(t) 相同。2. 簇稀疏贝叶斯信道估计
信道簇结构和稀疏性可用以改善信道估计精度。在本节中, 提出自适应簇稀疏贝叶斯学习信道估计算法。所提算法利用稀疏先验和簇结构先验, 通过变分贝叶斯推断获得统计变量的自适应更新公式, 所提算法可以在无需簇大小、簇数量和簇位置等先验信息的情况下自适应地估计簇结构稀疏信道。
首先以向量的形式重新表述式(7)的输入输出关系, 第
k 时刻接收信号表示为{\boldsymbol{y}}(k) = {\boldsymbol{X}}(k){\boldsymbol{h}}(k) + {\boldsymbol{w}}(k) , (8) 其中,
{\boldsymbol{y}}(k) 为接收符号向量{\boldsymbol{y}} = {[y(1),y(2),\cdots,y(K)]^{\text{T}}} 中的第k 个分量,{\boldsymbol{h}}(k) = {[h(k,0),h(k,1),\cdots,h(k,L - 1)]^{\text{T}}} 为第k 时刻信道冲击响应,{\boldsymbol{w}} = {[w(1),w(2), \cdots ,w(K)]^{\text{T}}} 为噪声向量, 其统计分布为w(k) \sim \mathcal{C}\mathcal{N}\left( {0,{\sigma ^2}} \right) 。{\boldsymbol{X}}(k) 为发射信号矩阵{\boldsymbol{X}} 的第k 行, 定义为{\boldsymbol{X}} = \left[ {\begin{array}{*{20}{c}} {x(1)}&0& \cdots &0 \\ {x(2)}&{x(1)}& \cdots &0 \\ \vdots & \vdots & \ddots & \vdots \\ {x(K)}&{x(K - 1)}& \cdots &{x(K - L + 1)} \end{array}} \right] . (9) 为了自适应估计信道, 传统方法是最小化均方差:
\begin{split} \mathcal{L}({\boldsymbol{h}}(k)) = & \mathop \sum \limits_{{k{'}} = 1}^k {\phi ^{k - {k{'}}}}|{\boldsymbol{y}}({k{'}}) - {\boldsymbol{X}}({k{'}}){\boldsymbol{h}}(k){|^2} = \\& {\text{ }}\left\| {{{\boldsymbol{\varPhi }}^{1/2}}(k){\boldsymbol{y}}(k) - {{\boldsymbol{\varPhi }}^{1/2}}(k){\boldsymbol{X}}(k){\boldsymbol{h}}(k)} \right\|_2^2, \end{split} (10) 其中,
{\boldsymbol{\varPhi }} = {\text{diag}}({\phi ^{k - 1}},{\phi ^{k - 2}}, \cdots ,1),0 \ll \phi < 1 为遗忘因子, 根据式(10)最终可推导出著名的RLS自适应更新算法, 但传统RLS无法利用簇稀疏结构。稀疏贝叶斯学习是一种基于概率模型的稀疏重构算法, 很容易与因子图结合。为了利用簇稀疏结构, 首先通过局部Beta过程建立分层贝叶斯模型, 如图3所示。考虑模型(8), 其数据似然通常是由噪声分布决定的。为了建立似然函数与代价函数(10)的联系, 假设噪声分布为
{\boldsymbol{w}}\sim \mathcal{C}\mathcal{N}({\boldsymbol{w}}|0,\alpha _0^{ - 1}{{\boldsymbol{\varPhi }}^{ - 1}}) 。当进行信道估计时, 接收信号的条件高斯似然函数为p({\boldsymbol{y}}|{\boldsymbol{h}},{\alpha _0}) = \frac{{\alpha _0^{k/2}|{\boldsymbol{\varPhi }}{|^{1/2}}}}{{{{(2\pi )}^{k/2}}}}\exp \left( { - \frac{{{\alpha _0}}}{2}\parallel {{\boldsymbol{\varPhi }}^{1/2}}y - {{\boldsymbol{\varPhi }}^{1/2}}{\boldsymbol{Xh}}\parallel _2^2} \right), (11) 其中,
\alpha _0^{ - 1} = {\sigma ^2} 为噪声精度, 超参数{\alpha _0} 的共轭先验服从参数为c ,d 的Gamma分布, 即p({\alpha _0}|c,d) \propto {\text{Gamma}}(c,d) = \left( {{d^c}\alpha _0^{c - 1}/\varGamma (c)} \right){{\text{e}}^{ - d{\alpha _0}}} ,\varGamma (c) 为c 的伽马函数。对于信道的稀疏性和簇结构分别通过伽马–高斯模型和局部Beta过程引入。首先, 信道向量被分割为位置向量
{\boldsymbol{\eta }} \, ({\eta _l} = 1,\forall {\lambda _l} \ne 0,{\eta _l} = 0,\forall {\lambda _l} = 0) 和权重向量{\boldsymbol{\lambda }} , 即{\boldsymbol{h}} = {\boldsymbol{\eta }} \odot {\boldsymbol{\lambda }} ,\odot 表示向量逐元素乘积。位置向量和权重向量分别表征支撑集(非零抽头的位置)和非0信道抽头的幅值。为引入稀疏性, 定义权重向量
{\boldsymbol{\lambda }} 先验分布服从伽马–高斯模型:p({\lambda _l}|{\alpha _l}) = \sqrt {\frac{{{\alpha _l}}}{{2\pi }}} {\mathrm{e}^{ - {\alpha _l}\lambda _l^2/2}} , (12) 其中, 精度参数
{\alpha _l} 服从参数为a(a > 0) 和b(b > 0) 的伽马分布, 即p({\alpha _l}|a,b) \propto {\text{Gamma}}(a,b) = \left( {{b^a}\alpha _l^{a - 1}/\varGamma (a)} \right){\mathrm{e}^{ - b{\alpha _l}}} 。位置向量{\boldsymbol{\eta }} 服从参数为{\pi _l} 的伯努利分布, 即{\eta _l}\sim {\text{Bernoulli}}({\pi _l}) 。随后Beta过程和伯努利分布联合假设引入簇结构, 定义局部Beta过程为\begin{gathered} {\pi _l}\sim {\text{Beta}}(\kappa /\mathcal{K},\upsilon (\mathcal{K} - 1)/\mathcal{K}), \\ \{ {\eta _l},{\eta _{\mathcal{J}(l)}}\} \sim {\text{Bernoulli}}({\pi _l}), \\ \end{gathered} (13) 其中,
\mathcal{K} 为集合\mathcal{J}(l) 的势,\mathcal{J}(l) 为位置向量中第l 个元素的邻域集合, 本文仅考虑一阶邻域。在局部Beta过程中, 假设
{\eta _l} 和其一阶邻域{\eta _{\mathcal{J}(l)}} 均由参数为{\pi _l} 的伯努利过程描述, 这意味着{\eta _l} = 1 的概率与其邻域一致。通过利用{\pi _l} 的共轭先验,{\pi _l} 的推断不仅与{\eta _l} 有关, 而且还与{\eta _{\mathcal{J}(l)}} 有关, 即p({\pi _l}|{\eta _l},{\eta _{\mathcal{J}(l)}})\sim {\text{Beta}}(e,f) ,e = \kappa /L + \sum\nolimits_{j \in \mathcal{J}(l)} {{\eta _j} + {\eta _l}} ,f = \upsilon (\mathcal{K} - 1)/\mathcal{K} + \mathcal{K} - \sum\nolimits_{j \in \mathcal{J}(i)} {{\eta _j} - {\eta _l}} 。因此,{\pi _l} 的估计值为\begin{split}& \overline {\ln {\pi _l}} = \varPsi (e) - \varPsi (e + f), \\& \overline {\ln (1 - {\pi _l})} = \varPsi (f) - \varPsi (e + f), \end{split} (14) 其中,
\varPsi (x) = ({\text{d}}/{\text{d}}x)\ln \varGamma (x) 为双伽马函数。根据式(13), 如果{\eta _{\mathcal{J}(l)}} 中的每个元素等于0或等于1, 则{\pi _l} 的推断也将接近0或1, 进而得到{\eta _l} 也等于0或1, 即{\eta _l} 和其邻域{\eta _{\mathcal{J}(l)}} 具有相同的状态。因此, 通过Beta过程, 将簇结构引入到信道估计算法中。定义
{\boldsymbol{\varTheta }} = \{ {\boldsymbol{\lambda }},{\boldsymbol{\eta }},{\boldsymbol{\pi }},{\boldsymbol{\alpha }},{\alpha _0}\} 为需要估计的隐变量的集合, 基于之前定义的似然函数和先验概率, 隐变量的联合概率分布为p({\boldsymbol{y}},{\boldsymbol{\varTheta )}} = p(y|\lambda ,\eta ,{\alpha _0})\prod\limits_{l = 1}^L {p({\lambda _l}|{a_l})p({\boldsymbol{\alpha }})p({\boldsymbol{\eta }}|{\boldsymbol{\pi }})p({\boldsymbol{\pi }})p({\alpha _0})} . (15) 因为边缘分布
p({\boldsymbol{y}}) 的计算涉及多重积分, 直接求解后验概率p({\boldsymbol{\varTheta }}|{\boldsymbol{y}}) 的闭式解极为困难。对于所提出的分层贝叶斯模型, 借助变分贝叶斯推断方法, 通过迭代最大化下界得到其近似后验。变分贝叶斯方法不直接计算
{\boldsymbol{\varTheta }} 的后验p({\boldsymbol{\varTheta }}|{\boldsymbol{y}}) , 而是通过最小化q({\boldsymbol{\varTheta }}) 和p({\boldsymbol{\varTheta }}|{\boldsymbol{y}}) 之间的KL散度{D_{{\text{KL}}}}(q({\boldsymbol{\varTheta }})||p({\boldsymbol{\varTheta }}|{\boldsymbol{y}})) 计算{\boldsymbol{\varTheta }} 的近似后验q({\boldsymbol{\varTheta }}) 。根据平均场近似理论,q({\boldsymbol{\varTheta }}) 因式分解为q({\boldsymbol{\varTheta }}) = q({\alpha _0})q({\boldsymbol{\alpha }})q({\boldsymbol{\lambda }})q({\boldsymbol{\eta }})q({\boldsymbol{\pi }}). (16) 进一步,
q({\boldsymbol{\varTheta }}) 最优因式分解等价于最小化KL散度:\begin{split} {q^*}({\boldsymbol{\varTheta }}) = &\arg \mathop {\min }\limits_{q({\boldsymbol{\varTheta }})} {D_{{\text{KL}}}}(q({\boldsymbol{\varTheta }})||p({\boldsymbol{\varTheta }}|{\boldsymbol{y}})) = \\& {\text{ }}\arg \mathop {\min }\limits_{q({\boldsymbol{\varTheta }})} \int {q({\boldsymbol{\varTheta }})\ln \frac{{q({\boldsymbol{\varTheta }})}}{{p({\boldsymbol{\varTheta }}|{\boldsymbol{y}})}}} \mathrm{d}{\boldsymbol{\varTheta }}, \end{split} (17) {q^*}({{\varTheta }_k}) = \frac{{\exp \left\{ {{{\left\langle {\ln p({\boldsymbol{y}},{\boldsymbol{\varTheta }})} \right\rangle }_{q({\boldsymbol{\varTheta }}\backslash {{\varTheta }_k})}}} \right\}}}{{\int\limits_{{{\varTheta }_k}} {\exp \left\{ {{{\left\langle {\ln p({\boldsymbol{y}},{\boldsymbol{\varTheta }})} \right\rangle }_{q({\boldsymbol{\varTheta }}\backslash {{\varTheta }_k})}}} \right\}\mathrm{d}{{\varTheta }_k}} }}. (18) q({\boldsymbol{\varTheta }}) 的最优解为\ln {q^*}({{\varTheta }_k}) \propto {\left\langle {\ln p({\boldsymbol{y}},{\boldsymbol{\varTheta }})} \right\rangle _{q({\boldsymbol{\varTheta }}\backslash {{\varTheta }_k})}} , (19) 其中,
{{\varTheta }_k} 为{\boldsymbol{\varTheta }} 中的第k 个元素,{\langle \cdot \rangle }_{q({\boldsymbol\varTheta} \backslash {\varTheta}_{k})} 为相对于q({\boldsymbol{\varTheta }}\backslash {{\varTheta }_k}) 的期望,{\boldsymbol{\varTheta }}\backslash {{\varTheta }_k} 表示{\boldsymbol{\varTheta }} 中除元素{{\varTheta }_k} 外的其余元素构成的集合。根据式(16)—式(18)以及之前定义的先验分布, 总结隐变量的更新规则如下。在期望最大化(EM)方法迭代过程中, 期望步骤通过前一次迭代获得的超参数更新权重向量和位置向量, 最大化步骤寻找似然函数最大时对应的超参数进行更新。
权重向量的近似后验分布为高斯过程, 即
{\boldsymbol{\lambda }}\sim \mathcal{C}\mathcal{N}({\boldsymbol{\mu }},{\boldsymbol{\varSigma }}) , 均值{\boldsymbol{\mu }} = {\alpha _0}{\boldsymbol{\varSigma \eta }}{{\boldsymbol{X}}^{\text{T}}}{\boldsymbol{\varPhi y}} , 方差{\boldsymbol{\varSigma }} = ( {\boldsymbol{A}} + {\alpha _0}\left\langle {\boldsymbol{N}}{{\boldsymbol{X}}^{\text{T}}} {\boldsymbol{\varPhi XN}} \right\rangle )^{ - 1} , 期望\left\langle {{\boldsymbol{N}}{{\boldsymbol{X}}^{\text{T}}}{\boldsymbol{\varPhi XN}}} \right\rangle = {{\boldsymbol{R}}_x} \odot {{\boldsymbol{R}}_\eta } 。因此{\boldsymbol{\lambda }} 更新公式为{\widehat{ \boldsymbol{ \lambda }}}(k) = {\boldsymbol{\mu}} = {\left( {{\boldsymbol{A}}(k)/{\alpha _0}(k) + {{\boldsymbol{R}}_x}(k) \odot {{\boldsymbol{R}}_\eta }(k)} \right)^{ - 1}}{\boldsymbol{N}}(k){{\boldsymbol{R}}_{xy}}(k), (20) 其中,
{\boldsymbol{A}} = {\text{diag(}}{\boldsymbol{\alpha }}{\text{)}} 为{\alpha _l} 组成的对角阵,{{\boldsymbol{R}}_x} = {{\boldsymbol{X}}^{\text{T}}}{\boldsymbol{\varPhi X}} 为发射信号矩阵的加权自相关矩阵,{{\boldsymbol{R}}_\eta } = \left\langle {{\boldsymbol{\eta }}{{\boldsymbol{\eta }}^{\text{T}}}} \right\rangle = {\boldsymbol{\eta }}{{\boldsymbol{\eta }}^{\text{T}}} + {\mathrm{diag}}({\boldsymbol{\eta }} \odot (1 - {\boldsymbol{\eta }})) 为隐藏向量的期望自相关矩阵,\left\langle \cdot \right\rangle 表示求期望。{\boldsymbol{N}} = {\text{diag}}({\boldsymbol{\eta }}) 为向量{\boldsymbol{\eta }} 组成的对角阵,{R_{xy}} = {{\boldsymbol{X}}^{\text{T}}}{\boldsymbol{\varPhi y}} 是发射信号矩阵和接收信号向量的加权互相关矩阵。隐藏向量
{\boldsymbol{\eta }} 的近似后验分布为{\eta _l}\sim {\text{Bernoulli}}({q_l}), {\text{ }}{q_l} = p_l^1/(p_l^0 + p_l^1) 。{\eta _l} = 1 和{\eta _l} = 0 的概率分别为p_l^1 和p_l^0 , 二者组成概率向量{{\boldsymbol{p}}^1} = {[p_1^1,p_2^1, \cdots ,p_L^1]^{\text{T}}} 和{{\boldsymbol{p}}^0} = {[p_1^0,p_2^0, \cdots ,p_L^0]^{\text{T}}} :\begin{split} & {{\boldsymbol{p}}^1}(k) = \exp \bigg( \overline {\ln {\boldsymbol{\pi }}(k)} - \frac{{{\alpha _0}}}{2}\bigg[ {\boldsymbol{R}}_\lambda ^d(k) \odot {\boldsymbol{R}}_x^d(k) - 2{\boldsymbol{\lambda }}(k) \, \odot \, \\&\qquad\;\;\; \left( {{\boldsymbol{R}}_{xy}}(k) - {\boldsymbol{R}}_x^o(k){\boldsymbol{h}}(k) \right) \bigg] \bigg) \\& {{\boldsymbol{p}}^0}(k) = \exp \left( {\overline {\ln (1 - {\boldsymbol{\pi }}(k))} } \right) ,\\[-1pt] \end{split} (21) 其中,
{\boldsymbol{R}}_\lambda ^d 和{\boldsymbol{R}}_x^d 为对角阵, 其对角元素与{{\boldsymbol{R}}_\lambda } = \left\langle {{\boldsymbol{\lambda }}{{\boldsymbol{\lambda }}^{\text{T}}}} \right\rangle = {\boldsymbol{\lambda }}{{\boldsymbol{\lambda }}^{\text{T}}} + {\boldsymbol{\varSigma }} 和{{\boldsymbol{R}}_x} 相同,{\boldsymbol{R}}_x^o 由{{\boldsymbol{R}}_x} 中对角元素置0得到。因此, 表示支撑集的位置向量{\boldsymbol{\eta }} 的更新公式为{\widehat \eta _l}(k + 1) = \frac{{p_l^1(k)}}{{p_l^0(k) + p_l^1(k)}} . (22) 最终在E步得到信道估计值为
{\boldsymbol{\widehat h}}(k) = {\boldsymbol{\widehat \lambda }}(k) \odot {\boldsymbol{\widehat \eta }}(k) 。随后在M步进行超参数更新。超参数{\alpha _0} 的近似后验服从参数为{c{'}} 和{d{'}} 的伽马分布, 即{\alpha _0} \sim \text{Gamma}({c{'}},{d{'}}) , 其中{c{'}} = c + k/2 ,{d{'}} = d + \langle {{{ \| {{{\boldsymbol{\varPhi }}^{1/2}}{\boldsymbol{y}} - {{\boldsymbol{\varPhi }}^{1/2}}{\boldsymbol{Xh}}} \|}^2}} \rangle /2 , 期望算子表示为\langle {{{ \| {{{\boldsymbol{\varPhi }}^{1/2}}{\boldsymbol{y}} - {{\boldsymbol{\varPhi }}^{1/2}}{\boldsymbol{Xh}}} \|}^2}} \rangle = {{\boldsymbol{r}}_y} - 2{{\boldsymbol{h}}^{\text{T}}}{{\boldsymbol{R}}_{xy}} + {\text{sum}}({{\boldsymbol{R}}_x} \odot {{\boldsymbol{R}}_\eta } \odot {{\boldsymbol{R}}_\lambda }) ,{\text{sum}}( \cdot ) 表示所有矩阵所有元素求和。因此, 超参数{\alpha _0} 的更新公式为\begin{split} {\alpha _0} = & \frac{{{c{'}}}}{{{d{'}}}} = (2c + k)/\left( 2d + {{\boldsymbol{r}}_y}(k) + 2{\boldsymbol{h}}(k){{\boldsymbol{R}}_{xy}}(k) +\right.\\& \left.{\text{sum}}({{\boldsymbol{R}}_x}(k) \odot {{\boldsymbol{R}}_\eta }(k) \odot {{\boldsymbol{R}}_\lambda }(k)) \right). \end{split} (23) 超参数
{\alpha _l} 的近似后验同样服从伽马分布{\alpha _l}\sim \text{Gamma}({a{'}},{b{'}}) ,{a{'}} = a + 1/2 ,{b{'}} = b + \left\langle {\lambda _l^2} \right\rangle /2 , 因此超参数{\alpha _l} 的更新公式为{\boldsymbol{\alpha }}(k + 1) = \frac{{2a + 1}}{{2b + {\mathrm{diag}}({\boldsymbol{R}}_\lambda ^d(k))}} . (24) 进一步将时间索引
k 引入到局部Beta过程, 则{\pi _l} 的估计值重写为\begin{split}& \overline {{\text{ }}\ln {\pi _l}(k + 1)} = \varPsi (e(k)) - \varPsi (e(k) + f(k)), \\& \overline {\ln (1 - {\pi _l}(k))} = \varPsi (f(k)) - \varPsi (e(k) + f(k)), \\& {\text{ }}e(k) = \kappa /L + \sum\nolimits_{j \in \mathcal{J}(l)} {{\eta _j}(k) + {\eta _l}(k),} \\& f(k) = \upsilon (\mathcal{K} - 1)/\mathcal{K} + \mathcal{K} - \sum\nolimits_{j \in \mathcal{J}(l)} {{\eta _j}(k) - {\eta _l}(k)} . \end{split} (25) 为更有效实时更新上述统计变量, 引入以下相关矩阵的时间自适应更新形式:
\begin{split}& {{\boldsymbol{R}}_x}(k) = \phi {{\boldsymbol{R}}_x}(k - 1) + {\boldsymbol{X}}(k){{\boldsymbol{X}}^{\text{T}}}(k) - \phi {\boldsymbol{A}}(k - 2) + {\boldsymbol{A}}(k - 1), \\& {{\boldsymbol{R}}_{xy}}(k) = \phi {{\boldsymbol{R}}_{xy}}(k - 1) + {{\boldsymbol{X}}^{\text{T}}}(k){\boldsymbol{y}}(k), \\& {r_y}(k) = \phi {r_y}(k - 1) + {y^2}(k). \\[-1pt] \end{split} (26) 所提自适应簇稀疏贝叶斯学习信道估计算法流程见表1。
表 1 自适应簇稀疏贝叶斯信道估计算法1.初始化: \phi , a = b = c = d = 1 \times {10^{ - 6}} , {{\boldsymbol{R}}_x} , {{\boldsymbol{R}}_{xy}} , {r_y} , {\boldsymbol{\eta }}, {\boldsymbol{\lambda }} 2.输入: {\boldsymbol{y}} , {\boldsymbol{X}}
for k = 1:K do
根据式(26)更新 {{\boldsymbol{R}}_x} , {{\boldsymbol{R}}_{xy}} , {r_y}
根据式(23)更新 {\alpha _0} ;
根据式(24)更新{\boldsymbol{\alpha }};
根据式(20)更新{\boldsymbol{\widehat \lambda }};
根据式(25)更新 {\pi _l} ;
根据式(22)更新 {\boldsymbol{\widehat \eta }} ;
end for
3.输出: {\boldsymbol{\widehat h}}(k) = {\boldsymbol{\widehat \lambda }}(k) \odot {\boldsymbol{\widehat \eta }}(k), \; k \in [1,K].3. 时延–多普勒Turbo均衡
时延–多普勒域信道呈现近似于时间无关的特点, 此特性有助于改善信道时变对通信性能的影响。本节通过时延–多普勒域变换将ACSBL估计得到的时变信道转换为时延–多普勒域中的准静态信道, 基于最小均方误差(MMSE)准则提出时延–多普勒域Turbo均衡器, 增强了单载波系统处理时变信道的能力。所提均衡器通过酉变换实现时延–多普勒域均衡器和时域解码器之间的交叉域软信息交互, 降低了错误传播概率, 提高了迭代增益。
式(5)给出的接收信号经过双选信道后重新表示为
r(t) = {\displaystyle {\int }_{-\infty }^{\infty }{\displaystyle {\int }_{-\infty }^{\infty }h(\tau ,\nu )s(t-\tau )\mathrm{e}^{\mathrm{j}2\pi v(t-\tau )}\mathrm{d}\tau d\nu + w(t)}} , (27) 该式表明接收信号可以表征为发射信号的时延副本和频移副本的加权叠加。双选信道
h(\tau ,\nu ) 表示为h(\tau ,\nu ) = \mathop \sum \nolimits_{p = 1}^P {h_p}\delta (\tau - {\tau _p})\delta (\nu - {\nu _p}), (28) 其中,
{h_p} ,{\tau _p} = {l_p}/B ,{\nu _p} = {k_p}/{T_f} 分别表示第p 条路径的幅值、时延和多普勒频移。0 \leqslant {l_p} \leqslant L ,|{k_p}| \leqslant {k_{\max }} ,B = 1/{T_s} 为系统带宽,{T_f} 为块持续时间,{k_{\max }} 为最大归一化多普勒频移。根据前一节估计的信道, 给出离散时延–多普勒域信道模型与时域信道模型之间的关系为\widehat h(\tau ,\nu ) = \mathop \smallint \nolimits_{ - \infty }^\infty \widehat h(\tau ,t){\mathrm{e}^{ - \mathrm{j}2\pi v(t - \tau )}}\mathrm{d}t. (29) y(k) = \sum\limits_{p = 1}^P {{h_p}{\mathrm{e}^{\mathrm{j}2\pi \tfrac{{{k_p}(n - {l_p})}}{K}}}} x{[n - {l_p}]_K} + w(k) , (30) 其中,
{[ \cdot ]_K} 为模K 算子。为了将式(30)用矩阵形式表述, 定义等效时变信道矩阵为{{\boldsymbol{H}}_{\text{T}}} = \sum\limits_{p = 1}^P {{h_p}{{\boldsymbol{\varPi }}^{{l_p}}}{{\boldsymbol{\varDelta }}^{{k_p}}}} , (31) 其中,
{{\boldsymbol{\varPi }}_{K \times K}} 为置换矩阵以表示时延,{{\boldsymbol{\varDelta }}_{K \times K}} 为对角矩阵表示多普勒频移。二者定义为{{\boldsymbol{\varPi }}_{K \times K}} = {\left[ {\begin{array}{*{20}{c}} 0& \cdots &0&1 \\ 1& \ddots &0&0 \\ \vdots & \ddots & \ddots & \vdots \\ 0& \cdots &1&0 \end{array}} \right]_{K \times K}} , (32) {\boldsymbol{\varDelta }} = {\text{diag}}[{\omega ^0},{\omega ^1}, \cdots ,{\omega ^{K - 1}}],{\text{ }}\omega = {{\text{e}}^{{\text{j}}2\pi /K}}. (33) 因此, 式(30)用矩阵形式表示为
{\boldsymbol{y}} = {{\boldsymbol{H}}_{\text{T}}}{\boldsymbol{x}} + {\boldsymbol{w}}, (34) 其中,
{\boldsymbol{y}} = {[y(1),y(2), \cdots y(K)]^{\text{T}}} 为接收符号向量, 该向量中第k 个元素由式(30)给定。通过离散Zak变换可以将时域接收信号转换到时延–多普勒域。为了方便表述, 引入时延域和多普勒域的符号数量分别为
M(0 \leqslant m \leqslant M - 1) 和N(0 \leqslant n \leqslant N - 1) ,K = M \times N 。通过对{\boldsymbol{y}} 以等间隔N 采样, 定义时域接收信号的第n 个子向量为{{\boldsymbol{x}}^{(n)}} \triangleq {[{x_m},{x_{m + M}}, \cdots ,{x_{m + (N - 1)M}}]^{\text{T}}} . (35) 时域发射信号x的(M, N)点离散Zak变换(DZT)表示为
\begin{gathered} {{\boldsymbol{X}}_{{\text{DD}}}} = {\mathcal{Z}_{(M,N)}}\{ {\boldsymbol{x}}\} \triangleq \\ {\text{ }} \left[ \begin{gathered} {\{ {{\boldsymbol{x}}^{(0)}}\} ^{\text{T}}} \\ {\{ {{\boldsymbol{x}}^{(1)}}\} ^{\text{T}}} \\ \vdots \\ {\{ {{\boldsymbol{x}}^{(M - 1)}}\} ^{\text{T}}} \\ \end{gathered} \right]{{\boldsymbol{F}}_N} = \underbrace {\left[ {\begin{array}{*{20}{c}} {{x_0}}&{{x_M}}& \cdots &{{x_{(N - 1)M}}} \\ {{x_1}}&{{x_{M + 1}}}& \cdots &{{x_{(N - 1)M + 1}}} \\ \vdots & \vdots & \ddots & \vdots \\ {{x_{M - 1}}}&{{x_{2M - 1}}}& \cdots &{{x_{MN - 1}}} \end{array}} \right]}_{{{\boldsymbol{X}}_{\text{T}}}}{{\boldsymbol{F}}_N} \\ \end{gathered} , (36) 其中,
{{\boldsymbol{F}}_N} 为N 点离散傅里叶变换(DFT)矩阵,{{\boldsymbol{X}}_{{\text{DD}}}} 为等效时延–多普勒域符号矩阵, 其中第(m,n) 个元素表示为{X_{{\text{DD}}}}(m,n) = \frac{1}{{\sqrt N }}\sum\limits_{k = 0}^{N - 1} {{x_{m + kM}}} {{\text{e}}^{ - {\text{j}}2\pi (n/N)k}} . (37) 根据式(36)和式(37), DZT等价于对等间隔采样时域信号的DFT。根据
{\text{vec}}({\boldsymbol{ABC}}) = ({\boldsymbol{CA}}){\text{vec}}({\boldsymbol{B}}) , 进一步定义{{\boldsymbol{X}}_{{\text{DD}}}} 的向量形式为\begin{split} {{\boldsymbol{x}}_{{\text{DD}}}} \triangleq& {\text{vec}}({{\boldsymbol{X}}_{{\text{DD}}}}) = {\text{vec}}({\mathcal{Z}_{(M,N)}}\{ {\boldsymbol{x}}\} ) = {\text{vec}}({{\boldsymbol{I}}_M}{{\boldsymbol{X}}_{\text{T}}}{{\boldsymbol{F}}_N}) = \\& {\text{ }} ({{\boldsymbol{F}}_N} \otimes {{\boldsymbol{I}}_M}){\text{vec}}({{\boldsymbol{X}}_{\text{T}}}) = ({{\boldsymbol{F}}_N} \otimes {{\boldsymbol{I}}_M}){\boldsymbol{x}} \triangleq {\text{ }} {{\boldsymbol{Z}}_{M,N}}{\boldsymbol{x}}, \end{split} (38) 其中,
\otimes 表示克罗内克积,{{\boldsymbol{I}}_M} 为M 阶单位阵。因{{\boldsymbol{Z}}}_{M,N}{{\boldsymbol{Z}}}_{M,N}^{\text{H}} = ({{\boldsymbol{F}}}_{N}{{\boldsymbol{F}}}_{N}^{\text{H}})\otimes ({{\boldsymbol{I}}}_{M}{{\boldsymbol{I}}}_{M}^{\text{H}}) = {{\boldsymbol{I}}}_{MN} ,{{\boldsymbol{Z}}_{M,N}} \triangleq {{\boldsymbol{F}}_N} \otimes {{\boldsymbol{I}}_M} 为酉矩阵。为了在时延–多普勒域中进行均衡, 首先通过(M, N)点DZT将接收符号映射到时延–多普勒域, 时延–多普勒域中的接收符号向量为
{{\boldsymbol{y}}_{{\text{DD}}}} = {\text{vec}}({{\boldsymbol{Y}}_{{\text{DD}}}}) = {\text{vec}}({\mathcal{Z}_{(M,N)}}\{ {\boldsymbol{y}}\} ) {\text{ }} = {{\boldsymbol{Z}}_{M,N}}{\boldsymbol{y}}, (39) 其中,
{{\boldsymbol{Y}}_{DD}} 为时延–多普勒域接收符号矩阵, 其中第(m,n) 个元素表示为{Y_{{\text{DD}}}}(m,n) = \frac{1}{{\sqrt N }}\sum\limits_{k = 0}^{N - 1} {{x_{m + kM}}} {{\text{e}}^{ - {\text{j}}2\pi (n/N)k}} . (40) 随后引入时延–多普勒域等效信道矩阵:
{{\boldsymbol{H}}_{{\text{DD}}}} \triangleq {{\boldsymbol{Z}}_{M,N}}{{\boldsymbol{H}}_{\text{T}}}{\boldsymbol{Z}}_{M,N}^{\text{H}} = ({{\boldsymbol{F}}_N} \otimes {{\boldsymbol{I}}_M}){{\boldsymbol{H}}_{\text{T}}}({\boldsymbol{F}}_N^{\text{H}} \otimes {{\boldsymbol{I}}_M}), (41) 其中,
{( \cdot )^{\text{H}}} 表示矩阵共轭转置。根据最小均方误差准则, 为了从失真信号中恢复发射信号, 目标是最小化发射信号和均衡符号之间的
l_2 范数以获得最佳滤波器系数, 即需找到均衡器系数, 使传输符号与均衡符号之间的均方误差最小。利用时延–多普勒域信道近似与时间无关的特点, 时延–多普勒域检测信号被表示为{\widehat x_{{\text{DD}}}}(k) = {\overline x_{{\text{DD}}}}(k) + {{\boldsymbol{C}}_{{{\overline x}_{{\text{DD}}}}(k),{{\boldsymbol{y}}_{{\text{DD}}}}}}{\boldsymbol{C}}_{{{\boldsymbol{y}}_{{\text{DD}}}},{{\boldsymbol{y}}_{{\text{DD}}}}}^{ - 1}({{\boldsymbol{y}}_{{\text{DD}}}} - \mathbb{E}\{ {{\boldsymbol{y}}_{{\text{DD}}}}\} ), (42) 其中,
\mathbb{E}(\cdot) 表示期望,{\boldsymbol{C}} 表示协方差矩阵,{\overline x_{{\text{DD}}}} 表示发射信号在时延–多普勒域的先验均值。两向量间的协方差矩阵表示为{{\boldsymbol{C}}_{{\boldsymbol{a}},{\boldsymbol{b}}}} = {\text{Cov}}\{ {\boldsymbol{a}},{\boldsymbol{b}}\} = \mathbb{E}\{ {\boldsymbol{a}}{{\boldsymbol{b}}^{\text{H}}}\} - \mathbb{E}\{ {\boldsymbol{a}}\} \mathbb{E}\{ {{\boldsymbol{b}}^{\text{H}}}\} . (43) 假设发射信号是不相关的, 根据协方差公式, 发射信号, 接收信号和噪声的协方差矩阵表示为
\begin{gathered} {\boldsymbol{V}} = {\text{Cov}}\{ {{\boldsymbol{x}}_{\text{T}}},{{\boldsymbol{x}}_{\text{T}}}\} = {\text{diag}}[{\nu _1}, \ldots ,{\nu _K}], \\ {\boldsymbol{\varPsi }} = {\text{Cov}}\{ {{\boldsymbol{y}}_{{\text{DD}}}},{{\boldsymbol{y}}_{{\text{DD}}}}\} = {{\boldsymbol{H}}_{{\text{DD}}}}{\boldsymbol{VH}}_{{\text{DD}}}^{\text{H}} + \sigma {\boldsymbol{I}}, \\ {\text{Cov}}\{ {{\boldsymbol{w}}_{{\text{DD}}}},{{\boldsymbol{w}}_{{\text{DD}}}}\} = \left( {{{\boldsymbol{F}}_N} \otimes {{\boldsymbol{I}}_M}} \right){\text{Cov}}\{ {{\boldsymbol{w}}_{\text{T}}},{{\boldsymbol{w}}_{\text{T}}}\} \left( {{\boldsymbol{F}}_N^{\text{H}} \otimes {{\boldsymbol{I}}_M}} \right) = \sigma {{\boldsymbol{I}}_{MN}}, \\ {\text{Cov}}\{ {x_{{\text{DD}}}}(k),{{\boldsymbol{y}}_{{\text{DD}}}}\} = {\text{Cov}}\{ {x_{{\text{DD}}}}(k),{{\boldsymbol{x}}_{{\text{DD}}}}\} {\boldsymbol{H}}_{{\text{DD}}}^{\text{H}} = {\nu _k}{\boldsymbol{h}}_k^{\text{H}}, \\ \end{gathered} (44) 其中,
{{\boldsymbol{h}}_k} 为{{\boldsymbol{H}}_{{\text{DD}}}} 的第k 列。将式(44)代入式(42), 得到时延–多普勒域均衡后符号:{\widehat x_{{\text{DD}}}}(k) = {\overline x_{{\text{DD}}}}(k) + {v_k}{\boldsymbol{h}}_k^{\text{H}}{{\boldsymbol{\varPsi }}^{ - 1}}({{\boldsymbol{y}}_{{\text{DD}}}} - {{\boldsymbol{H}}_{{\text{DD}}}}{{\overline{\boldsymbol{x}}}_{{\text{DD}}}}). (45) 设置先验均值和方差分别为
{\overline x_{{\text{DD}}}}(k){\boldsymbol{ = }}0 ,{\nu _k} = 1 以消除符号自身先验, 式(45)重新表述为\begin{split} {\widehat x_{{\text{DD}}}}(k) = & 0 + 1 \cdot {\boldsymbol{h}}_k^{\text{H}}{({\boldsymbol{\varPsi }} + (1 - {\nu _k}){{\boldsymbol{h}}_k}{\boldsymbol{h}}_k^{\text{H}})^{ - 1}}\cdot \\&({{\boldsymbol{y}}_{{\text{DD}}}} - {{\boldsymbol{H}}_{{\text{DD}}}}{{\overline{\boldsymbol{x}}}_{{\text{DD}}}} + \overline x(k){{\boldsymbol{h}}_k}) . \end{split} (46) 为了避免在
{\widehat x_{{\text{DD}}}}(k) 计算过程中重复的矩阵求逆, 利用Woodbury矩阵恒等式, 式(46)重写为{\widehat x_{{\text{DD}}}}(k) = \frac{{{\boldsymbol{h}}_k^{\text{H}}{{\boldsymbol{\varPsi }}^{ - 1}}({{\boldsymbol{y}}_{{\text{DD}}}} - {{\boldsymbol{H}}_{{\text{DD}}}}{{{\overline{\boldsymbol{x}}}}_{{\text{DD}}}}) + {{\overline x}_{{\text{DD}}}}(k){\xi _k}}}{{1 + (1 - {\nu _k}){\xi _k}}}, (47) 其中,
{\xi _k} = {\boldsymbol{h}}_k^{\text{H}}{{\boldsymbol{\varPsi }}^{ - 1}}{{\boldsymbol{h}}_k} 。在第一次迭代期间,{\overline x_{{\text{DD}}}}(k) 和{\nu _k} 被初始化为{\overline x_{{\text{DD}}}}(k){\boldsymbol{ = }}0 和{\nu _k} = 1 , 并且在随后的迭代中, 它们由软解码器更新。由于发射信号不在时延–多普勒域中执行调制, 所以时延–多普勒域中的均衡符号不包含任何统计信息。为了计算软信息, 时延–多普勒域中的均衡符号通过IDZT转换到时域:{\boldsymbol{\widehat x}} = \mathcal{Z}_{M,N}^{\text{H}}\{ {{\boldsymbol{\widehat x}}_{{\text{DD}}}}\} = {\boldsymbol{Z}}_{M,N}^{\text{H}}{{\boldsymbol{\widehat x}}_{{\text{DD}}}} = ({\boldsymbol{F}}_N^{\text{H}} \otimes {{\boldsymbol{I}}_M}){{\boldsymbol{\widehat x}}_{{\text{DD}}}}. (48) 得到时域检测信号之后, 对应的检测信号被转换为相应的对数似然比(LLR)用于软译码。鉴于篇幅限制, 本文不再详细叙述软信息的计算过程, 直接给出最终计算得到的时域先验均值和方差为
\overline{x}(k) = \sum_{\alpha_{i} \in \mathcal{A}} \alpha_{i} \prod_{j = 1}^{Q} P\left( d(k,j)={{c}_{i,j}}\right) , (49) {v_k} = \sum\limits_{i = 1}^{{2^Q}} {|x(k) - \overline x(k){|^2}P\left( {x(k) = {\alpha _i}} \right)} = 1 - |\overline x(k){|^2} , (50) 其中,
P(d(k,j) = {c_{i,j}}) 为先验LLR,{2^Q} 为调制阶数, QAM为符号集合表示为\mathcal{A} 。时域先验均值\overline x(k) 和方差通过酉变换转换到时延–多普勒域, 实现跨域信息传递, 降低错误传播概率, 提高迭代增益。类似式(39), 跨域信息传递表示为{{\overline{\boldsymbol{x}}}_{{\text{DD}}}} = {{\boldsymbol{Z}}_{M,N}}{\overline{\boldsymbol{x}}},{\text{ }}{{\boldsymbol{\nu }}_{{\text{DD}}}} = {\boldsymbol{\nu }}, (51) 其中,
{\overline{\boldsymbol{x}}} = {[\overline x(1),\overline x(2), \cdots ,\overline x(K)]^{\text{T}}} 。在初始迭代时, 先验均值和方差分别为0和1, 后续迭代时二者由软解码器更新。4. 仿真结果
对所提方法在深海远程水声信道环境下进行计算机性能仿真。仿真水声信道数据来源于实测深海远程水声通信信道[34,35]。该实验于2019年3月在以色列Haifa以西约7 km海域处进行, 水域深度约1800 m, 接收机位于水下200 m, 两组接收机分别距离发射机100 km和50 km。仅采用100 km的信道进行仿真验证。图4展示了通信距离100 km、发射机深度分别为20 m和50 m时实测得到的信道冲激响应。两组信道最大时延扩展约为500 ms。图4(a)信道结构呈现出较为清晰的3簇多径, 图4(b)则为2簇多径。
仿真中系统带宽设置为900~1500 Hz, 载频1200 Hz, 采样率为14 kHz, 与文献[35]一致。信道编码采用卷积编码, 编码速率1/2, 调制方式为QPSK。发射帧结构如图5所示。每帧发射信号包括2段线性调频(LFM)和保护间隔以及10个数据块。位于帧首部和尾部持续时间为1 s的2段LFM信号用于同步、粗多普勒估计与补偿。每个数据块由长为256的伪噪声序列(PN)码和1024的QPSK符号组成。在第一个数据块之前添加同样长度的PN序列用作初始信道估计。系统通信速率计算为
R = \frac{{{N_b}}}{{{T_1}}} = \frac{{({N_t} - {N_p}){R_c}{{\log }_2}M}}{{{T_1}}} \approx 236{\text{ bit/s}} , (52) 其中,
{N_b} 为一帧发射信号中传输总比特数,{N_t} 和{N_p} 为总传输QPSK符号和PN序列, T1为一帧中数据符号和PN序列持续时间。具体仿真参数见表2。表 2 仿真参数设置参数 取值 编码方式 卷积码 码率Rc 1/2 载频 (Hz) 1200 带宽 (Hz) 600 采样速率 (kHz) 14 符号宽度 (ms) 3.33 调制方式 QPSK 总传输比特数Nb 10240 总传输符号数量Nt 13056 PN序列数量Np 2816 信号持续时间T1 (s) 43.4765 图6给出了不同信道条件下, 不同信道估计算法对应的归一化均方误差(NMSE)性能。所提ACSBL方法同时利用稀疏性和簇结构改善信道估计精度, 在两种信道环境下均实现了最出色的估计性能。该方法不需要有关簇位置、簇数量和簇大小等结构性先验信息, 对于不同的簇稀疏信道结构有较好的自适应能力。LS算法既没有考虑稀疏性, 也没有考虑簇结构, 性能最差。OMP和CoSaMP方法由于没有考虑簇结构且需要提前获取信道稀疏度, 因此对于不同簇稀疏结构的信道鲁棒性较差。尽管IPNLMS和SAMP方法也不需要信道结构性先验信息, 可以自适应估计稀疏信道, 但二者没有利用簇结构, 因此性能相比于ACSBL方法仍有一定差距。
图7对比了在不同信道条件下, 不同信道估计算法与信道已知(PCSI)时的BER性能。将考虑稀疏性的IPNLMS、OMP、CoSaMP和SAMP方法以及不考虑稀疏性的LS信道估计方法与所提方法进行对比, 信道均衡均采用所提DD-TEQ。由图7可见, 所提ACSBL在两种信道环境下均实现了最出色的BER性能。当
{\text{BER}} = 1 \times {10^{ - 4}} 时, 在20 m实测信道环境下ACSBL方法相比OMP、IPNLMS、CoSaMP和SAMP方法分别实现约3.0 dB, 2.0 dB, 1.5 dB, 0.3 dB的信噪比(SNR)增益。在50 m实测信道环境下ACSBL方法相比IPNLMS、CoSaMP和SAMP方法均实现约1.5 dB的SNR增益。此外, ACSBL在两种信道环境下最接近信道已知时的BER性能。图8展示了所提均衡方法在不同信道条件下的有效性, 其中LS-1和LS-3分别表示基于LS信道估计下DD-TEQ第一次迭代检测和第三次迭代检测, 其余方法的表示类似。根据图8, 两种信道结构下, 不论采用何种信道估计方法, 所提均衡方法均可以实现较为明显的迭代增益。受限于信道估计误差, 基于LS信道估计的迭代检测性能较差。如图8(a)所示, 当信道簇稀疏结构较为明显时, IPNLMS、 OMP、CoSaMP和SAMP等方法可以实现相对LS方法较好的迭代检测性能。当信道簇稀疏结构较难分辨时, OMP方法迭代检测性能下降, 而IPNLMS、CoSaMP和SAMP方法仍然保持较好的检测性能, 如图8(b)所示。基于ACSBL信道估计自适应学习信道簇结构和稀疏性等信息, 在两种信道条件下均可以实现最好的迭代检测性能。当信道估计方法为ACSBL且
{\text{BER}} = 1 \times {10^{ - 3}} 时, 两种信道条件下所提DD-TEQ分别可以实现约3 dB和5 dB的迭代增益。图9展示了所提均衡方法与频域Turbo均衡(FD-TEQ)在不同信道环境下的误码率性能比较, 二者均采用第2节所提ACSBL方法进行信道估计。根据图9, 所提DD-TEQ在两种信道环境下误码率性能均优于FD-TEQ。如图9(a)所示, 在第1次和第3次迭代后, DD-TEQ相比于FD-TEQ实现约1 dB的SNR增益。如图9(b)所示, 三次迭代后, DD-TEQ相比于FD-TEQ实现约0.4 dB的SNR增益。性能改善一方面来源于DD-TEQ利用时延–多普勒域信道准静态特性改善了系统处理时变信道的能力, 而FD-TEQ在一个数据块内的信道静态假设则会损失一部分性能; 另一方面来源于时延–多普勒域均衡器与时域解码器之间的跨域信息交互, 时域连续突发的错误经过时延–多普勒域变换后被打乱, 降低了错误传播概率, 改善了迭代增益。
5. 试验结果
为进一步验证本文所提方法性能, 于2021年8月在某海域开展两次不同通信距离的深海远程通信试验研究。实验海域的海况为3级海况。为方便表述, 两次不同距离试验分别用R1和R2表示。试验场景及该海域声速剖面如图10所示, 根据声速剖面, 声道轴位于1000 m附近。两次试验海域深度均约为5500 m, 发射机位于水下1028 m声道轴附近, 接收采用潜标形式, 垂直阵接收, 阵元个数为8个, 同样位于声道轴附近。后续所有实验数据处理结果均基于8通道接收数据处理, 利用多通道数据中的空间分集增益提高系统性能。发射声源级约176 dB。试验通信频率极低, 系统带宽100 Hz, 采样频率8 kHz。R1和R2码元宽度分别为0.015 s和0.02 s。
R1试验期间传输2组数据(命名为R1-1和R1-2), 通信距离324.9 km。R2试验期间传输2组数据(命名为R2-1和R2-2), 通信距离595.1 km。R1和R2信源数据经速率为1/2的卷积码编码, 交织和QPSK调制后发射。R1试验期间发射数据帧结构如图11所示, 接收端利用IDSig区分发射信号类型, 利用LFM信号进行同步、多普勒估计和补偿。采用重采样方法实现多普勒补偿, 具体细节本文不再赘述。每帧信号包括4个数据块, 每个数据块由384个数据符号和128个PN序列组成。R2试验帧结构与R1类似, 区别在于R2试验期间传输6个数据块, 每个数据块长度为256, 包括64个符号的PN序列和192个符号的数据序列。根据式(52), R1和R2通信速率分别为50 bit/s和37.5 bit/s。与R1、R2有关的试验参数见表3。经过波束形成后, 估计得到E1-1和E1-2接收信噪比分别约为3.33 dB和6.42 dB, E2-1和E2-2接收信噪比分别约为2.15 dB和1.88 dB。
表 3 海试参数设置参数 取值 (R1) 取值 (R2) 通信距离 (km) 324.9 595.1 编码方式 卷积码 卷积码 码率Rc 1/2 1/2 带宽 (Hz) 100 100 采样速率 (kHz) 8 8 符号宽度 (ms) 15 20 调制方式 QPSK QPSK 总传输比特数Nb 1536 1152 总传输符号数量Nt 2048 1536 PN序列数量Np 512 384 信号持续时间T1 (s) 30.72 30.72 图12为试验海域利用LFM信号粗估计得到的信道冲激响应, R1试验期间信道呈现出明显的1簇多径, R2试验期间由于低接收信噪比导致信道冲激响应有较多的噪声, 但仍然可以分辨出存在1簇明显的多径。因为均衡在时延–多普勒域进行, 图13给出了海试数据的时延–多普勒域信道结构。
为了对比所提信道估计方法的性能, 表4和表5给出了4组试验数据采用不同信道估计方法的BER结果, 信道均衡方法均采用所提DD-TEQ, 其中I = 1表示第1次迭代检测, “—”表示均衡失败。根据表4和表5, 所提信道估计方法在除R2-2外的三组数据中均表现出最好的性能, 这验证了所提信道估计方法的有效性。具体来说, 在R1-1中, 所有信道估计方法在三次迭代后均可以达到
{\text{BER < 1}} \times {\text{1}}{{\text{0}}^{{{ - 2}}}} ; 在R1-2中, 所提方法经过两次迭代后可以实现无差错传输。由于R2-1试验通信距离进一步加长, 导致接收信噪比较低, 因此基于LS信道估计的检测完全失败, 而考虑信道稀疏性的OMP、CoSaMP、SAMP、IPNLMS和ACSBL方法则在低信噪比下环境下仍然可以工作, 相对LS方法表现出较好的鲁棒性。在R2-2中, 接收信噪比进一步降低, 所有方法均无法正常工作。此外, ACSBL方法由于考虑簇结构带来的增益, 相比仅考虑稀疏性的OMP、CoSaMP、SAMP、IPNLMS方法有更好的性能。此外, 不论采用何种信道估计方法, 随着迭代的进行, BER性能都有所改善, 证明了所提出DD-TEQ的有效性。表 4 试验R1不同信道估计方法BER性能对比试验名称 R1-1 R1-2 I = 1 I = 2 I = 3 I = 1 I = 2 I = 3 DD-TEQ-LS 0.1139 0.0189 0.0065 0.1361 0.0280 0.0013 DD-TEQ-IPNLMS 0.0918 0. 0065 0.0033 0.0078 0 0 DD-TEQ-OMP 0.0352 0.0052 0.0039 0.0182 0 0 DD-TEQ-CoSaMP 0.0677 0.0169 0.0072 0.0176 0 0 DD-TEQ-SAMP 0.0638 0.0280 0.0059 0.0130 0 0 DD-TEQ-ACSBL 0.0482 0.0078 0.0033 0.0065 0 0 表 5 试验R2不同信道估计方法BER性能对比试验名称 R2-1 R2-2 I = 1 I = 2 I = 3 I = 1 I = 2 I = 3 DD-TEQ-LS — — — — — — DD-TEQ-IPNLMS 0.1050 0.0503 0.0313 0.2630 0.2552 0.2717 DD-TEQ-OMP 0.1649 0.1441 0.1259 0.2795 0.2517 0.2665 DD-TEQ-CoSaMP 0.1172 0.0938 0.0920 0.2960 0.2804 0.2674 DD-TEQ-SAMP 0.1050 0.0946 0.1042 0.3194 0.2995 0.2839 DD-TEQ-ACSBL 0.1024 0.0512 0.0133 0.2474 0.2951 0.3186 由于试验系统的低接收信噪比限制了系统性能, 为进一步提升可靠性, 采用时间分集技术改善系统性能。图14给出4组数据在不同时间分集次数下的BER性能, 利用分集增益, 通信可靠性得到显著提高。具体来说, 在试验R1-1和R1-2中, DD-TEQ-ACSBL仅需要两次时间分集和1次迭代即可实现无差错传输。DD-TEQ-IPNLMS、DD-TEQ-OMP、DD-TEQ-CoSaMP和DD-TEQ-SAMP性能略差于DD-TEQ-ACSBL, 利用迭代增益和时间分集增益, 均可以实现无差错传输。而DD-TEQ-LS则需要更多的时间分集和迭代次数。在试验R2-1和R2-2中, 由于极低的接收信噪比, 需要更多的时间分集和迭代次数才可以实现无差错传输。此外DD-TEQ-LS在R2试验期间无法正常工作, 故未在图中列出。图14结果进一步验证了ACSBL和DD-TEQ方法的有效性。值得注意的是, 尽管时间分集的引入显著提升了系统可靠性, 但是牺牲了一部分数据速率。
图15展示了在不同时间分集次数和不同信道估计方法下, 所提均衡方法与频域Turbo均衡(FD-TEQ)的平均误码率性能比较。无论采用何种信道估计算法, 所提DD-TEQ在4组试验数据中误码率性能均优于FD-TEQ, 这验证了所提DD-TEQ的有效性。此外, DD-TEQ-ACSBL的性能优于其他算法, 进一步验证了所提ACSBL信道估计算法的性能。
为进一步验证DD-TEQ-ACSBL的检测性能, 当R1和R2试验时间分集次数分别为2和3时, 经DD-TEQ-ACSBL均衡后符号和软译码符号星座图分别在图16和图17中展示, 其中第1~3列分别代表第1~3次迭代均衡。随着迭代的进行, 4组数据均衡后符号均可以收敛到对应的星座点周围。在解码后, 软判决符号进一步被分离并聚集成有效的星座点, 从解码中获得的额外信息比相应的均衡符号提供了更高的可靠性。在下一次迭代中, 更可靠的软判决符号将被反馈, 以驱动均衡器消除干扰, 从而实现更好的性能。
6. 结论
本文针对深海远程水声通信, 提出了自适应簇稀疏贝叶斯学习(ACSBL)信道估计算法, 该算法可以在不需要簇结构、簇位置和簇大小等先验信息的条件下自适应估计信道。所提算法同时利用信道簇结构和稀疏性提高信道估计精度。此外, 为了对抗水声信道的时变性, 结合自适应簇稀疏贝叶斯学习信道估计算法, 进一步提出一种基于交叉域处理的Turbo均衡器。该Turbo均衡器由工作在时延–多普勒域的Turbo均衡器和工作在时域的信道估计器与软解码器组成。由ACSBL方法估计的时变信道经时延–多普勒域变换转换为准静态信道, 所提方法对高多普勒扩展的鲁棒性被增强。时延–多普勒域Turbo均衡器通过酉变换实现时延–多普勒域均衡器和时域解码器之间的跨域软信息交互, 降低了错误传播概率, 提高了迭代增益。实测深海远程水声信道数据集仿真结果验证了所提方法的有效性。深海远程试验结果表明, 所提方法在324.9 km和595.1 km的通信距离中实现了无差错传输, 可有效应用于深海远程水声通信。
-
表 1 WLformer与其他方法计算资源占用的对比
表 2 WLformer与其他方法识别性能的对比
表 3 LibriSpeech数据集Zipformer与WLformer对比
数据集 LibriSpeech 训练准则 解码方式 test-clean test-other Gflops 参数量 Libri-Speech Zipformer[15] Pruned transducer Pruned transducer 2.4 5.7 40.8 23.3M Zipformer[15] CTC/AED CTC解码 3.0 7.0 40.8 46.3M Zipformer[15] CTC/AED CTC/AED联合解码 2.5 6.1 40.8 46.3M WLformer CTC/AED CTC解码 2.8 6.5 25.6 46.8M WLformer CTC/AED CTC/AED联合解码 2.3 5.5 25.6 46.8M 表 4 Aishell数据集Zipformer与WLformer对比
表 5 使用DWT信号压缩模块与降采样卷积神经网络性能对比
降采样方法 Aishell-1 HKUST Librispeech CER (%) CER (%) WER (%) dev test test test-clean test-other 降采样卷积神经网络
(卷积核大小: 4)5.0 5.5 22.6 3.2 7.5 降采样卷积神经网络
(卷积核大小: 8)5.1 5.4 22.8 3.3 7.6 DWT信号压缩模块 4.8 5.2 22.1 3.1 7.1 表 6 不同FFN设置的性能对比
FFN设置 Aishell-1 HKUST Librispeech 显存占用 (GB) Gflops CER (%) CER (%) WER (%) dev test test test-clean test-other 全部为标准FFN 4.8 5.2 22.1 3.0 7.1 0.86 27.6 WLformer 4.8 5.2 22.1 3.1 7.1 0.80 25.6 表 7 DSD-FFN的位置对性能的影响
使用DSD-FFN的Group CER (%) 显存占用 (GB) Gflops dev test Group1 5.0 5.3 0.78 24.7 Group2 4.8 5.2 0.80 25.6 Group3 5.2 5.6 0.82 26.4 Group1 + Group2 5.1 5.4 0.73 22.7 Group1 + Group2 + Group3 5.2 5.8 0.70 21.5 表 8 各小波基对应的滤波器系数
小波基 调整滤波器h 小波滤波器g 调整重构滤波器hr 小波重构滤波器gr Db2 h0 = −0.1294095226
h1 = 0.2241438680
h2 = 0.8365163037
h3 = 0.4829629131g0 = −0.4829629131
g1 = 0.8365163037
g2 = −0.2241438680
g3 = −0.1294095226hr0 = 0.4829629131
hr1 = 0.8365163037
hr2 = 0.2241438680
hr3 = −0.1294095226gr0 = −0.1294095226
gr1 = −0.2241438680
gr2 = 0.8365163037
gr3 = −0.4829629131Db4 h0 = −0.0105974018
h1 = 0.0328830117
h2 = 0.0308413818
h3 = −0.1870348117
h4 = −0.0279837694
h5 = 0.6308807679
h6 = 0.7148465706
h7 = 0.2303778133g0 = −0.2303778133
g1 = 0.7148465706
g2 = −0.6308807679
g3 = −0.0279837694
g4 = 0.1870348117
g5 = 0.0308413818
g6 = −0.0328830117
g7 = −0.0105974018hr0 = 0.2303778133
hr1 = 0.7148465706
hr2 = 0.6308807679
hr3 = −0.0279837694
hr4 = −0.1870348117
hr5 = 0.0308413818
hr6 = 0.0328830117
hr7 = −0.0105974018gr0 = −0.0105974018
gr1 = −0.0328830117
gr2 = 0.0308413818
gr3 = 0.1870348117
gr4 = −0.0279837694
gr5 = −0.6308807679
gr6 = 0.7148465706
gr7 = −0.2303778133Coif1 h0 = −0.0156557281
h1 = −0.0727326195
h2 = 0.3848648469
h3 = 0.8525720202
h4 = 0.3378976625
h5 = −0.0727326195g0 = 0.0727326195
g1 = 0.3378976625
g2 = −0.8525720202
g3 = 0.3848648469
g4 = 0.0727326195
g5 = −0.0156557281hr0 = −0.0727326195
hr1 = 0.3378976625
hr2 = 0.8525720202
hr3 = 0.3848648469
hr4 = −0.0727326195
hr5 = −0.0156557281gr0 = −0.0156557281
gr1 = 0.0727326195
gr2 = 0.3848648469
gr3 = −0.8525720202
gr4 = 0.3378976625
gr5 = 0.0727326195Bior3.3 h0 = 0.0662912607
h1 = −0.1988737822
h2 = −0.1546796084
h3 = 0.9943689110
h4 = 0.9943689110
h5 = −0.1546796084
h6 = −0.1988737822
h7 = 0.0662912607g0 = 0
g1 = 0
g2 = −0.1767766953
g3 = 0.5303300859
g4 = −0.5303300859
g5 = 0.1767766953
g6 = 0
g7 = 0hr0 = 0
hr1 = 0
hr2 = 0.1767766953
hr3 = 0.5303300859
hr4 = 0.5303300859
hr5 = 0.1767766953
hr6 = 0
hr7 = 0gr0 = 0.0662912607
gr1 = 0.1988737822
gr2 = −0.1546796084
gr3 = −0.9943689110
gr4 = 0.9943689110
gr5 = 0.1546796084
gr6 = −0.1988737822
gr7 = −0.0662912607表 9 不同小波基之间的性能对比
不同小波基 Aishell-1 HKUST Librispeech CER (%) CER (%) WER (%) dev test test test-clean test-other Db2 4.8 5.2 22.2 3.1 7.1 Db4 4.8 5.2 22.1 3.1 7.1 Coif1 4.9 5.2 22.2 3.2 7.1 Bior3.3 4.9 5.3 22.3 3.1 7.2 -
[1] Li K, Li J, Ye G, et al. Towards code-switching ASR for end-to-end CTC models. IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, Brighton, 2019: 6076−6080
[2] 刘育坤, 郑霖, 黎塔, 等. 多声学场景下端到端语音识别声学编码器的自适应. 声学学报, 2023; 48(6): 1260−1268 DOI: 10.12395/0371-0025.2022114 [3] 高长丰, 程高峰, 张鹏远. 面向鲁棒自动语音识别的一致性自监督学习方法. 声学学报, 2023; 48(3): 578−587 DOI: 10.15949/j.cnki.0371-0025.2023.03.008 [4] Deng K, Woodland P C. Adaptable end-to-end ASR models using replaceable internal LMs and residual softmax. IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, Greece, 2023: 1−5
[5] Dong L, Xu S, Xu B. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, Alberta, 2018: 5884−5888
[6] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolution-augmented transformer for speech recognition. arXiv preprint: 200508100, 2020
[7] Peng Y, Dalmia S, Lane I, et al. Branchformer: Parallel MLP-attention architectures to capture local and global context for speech recognition and understanding. International Conference on Machine Learning, PMLR, Hawaii, 2022: 17627−17643
[8] Kim K, Wu F, Peng Y, et al. E-branchformer: Branchformer with enhanced merging for speech recognition. IEEE Spoken Language Technology Workshop, IEEE, Qatar, 2023: 84−91
[9] Burchi M, Vielzeuf V. Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition. IEEE Automatic Speech Recognition and Understanding Workshop, IEEE, Cartagena, 2021: 8−15
[10] Kim S, Gholami A, Shaw A, et al. Squeezeformer: An efficient transformer for automatic speech recognition. Neural Information Processing Systems, NIPS Foundation, New Orleans, 2022: 9361−9373
[11] Pang R, Sainath T N, Prabhavalkar R, et al. Compression of end-to-end models. Interspeech, ISCA, Hyderabad, 2018: 27−31
[12] Tian S, Li Z, Lyv Z, et al. Factorized and progressive knowledge distillation for CTC-based ASR models. Speech Commun., 2024; 160: 103071 DOI: 10.1016/j.specom.2024.103071
[13] Bekal D, Gopalakrishnan K, Mundnich K, et al. A metric-driven approach to conformer layer pruning for efficient ASR inference. Interspeech, ISCA, Dublin, 2023: 2958−1796
[14] Yoon J W, Lee H, Kim H Y, et al. TutorNet: Towards flexible knowledge distillation for end-to-end speech recognition. IEEE/ACM Trans. Audio Speech Lang. Process., 2021; 29: 1626−1638 DOI: 10.1109/TASLP.2021.3071662
[15] Yao Z, Guo L, Yang X, et al. Zipformer: A faster and better encoder for automatic speech recognition. International Conference on Learning Representations, Vienna, 2024
[16] Mavaddaty S, Ahadi S M, Seyedin S. Speech enhancement using sparse dictionary learning in wavelet packet transform domain. Comput. Speech Lang., 2017; 44: 22−47 DOI: 10.1016/j.csl.2017.01.009
[17] 李如玮, 鲍长春, 窦慧晶. 基于小波变换的语音增强算法综述. 数据采集与处理, 2009; 24(3): 362−368 DOI: 10.3969/j.issn.1004-9037.2009.03.021 [18] Daqrouq K, Abu-Isbeih I N, Daoud O, et al. An investigation of speech enhancement using wavelet filtering method. Int. J. Speech Technol., 2010; 13: 101−115 DOI: 10.1007/s10772-010-9073-1
[19] 潘泉, 张磊, 孟晋丽, 等. 小波滤波方法及应用. 北京: 清华大学出版社, 2005: 42−43 [20] Lin T, Wang Y, Liu X, et al. A survey of transformers. AI Open, 2022; 3: 111−132 DOI: 10.1016/j.aiopen.2022.10.001
[21] Bu H, Du J, Na X, et al. Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline. International Coordinating Committee on Speech Databases and Speech I/O systems and assessment (O-COCOSDA), IEEE, Seoul, 2017: 1−5
[22] Liu Y, Fung P, Yang Y, et al. HKUST/MTS: A very large scale mandarin telephone speech corpus. Chinese Spoken Language Processing, ISCA SIG-CSLP, Springer, 2006: 724−735
[23] Panayotov V, Chen G, Povey D, et al. Librispeech: An ASR corpus based on public domain audio books. IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, Queensland, 2015: 5206−5210
[24] Xiang S, Liang Q, Fang L. Discrete wavelet transform-based Gaussian mixture model for remote sensing image compression. IEEE Trans. Geosci. Remote Sens., 2023; 61: 3000112 DOI: 10.1109/TGRS.2023.3272588
[25] Tian C, Zheng M, Zuo W, et al. Multi-stage image denoising with the wavelet transform. Pattern Recogn., 2023; 134: 109050 DOI: 10.1016/j.patcog.2022.109050
[26] Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library. Neural Information Processing Systems, NIPS Foundation, Vancouver, 2019: 32
[27] Watanabe S, Hori T, Karita S, et al. Espnet: End-to-end speech processing toolkit. arXiv preprint: 180400015, 2018
[28] 王瑞琳, 王立, 贺盈波. 基于小波和动态互补滤波的图像与事件融合方法. 工程科学学报, 2024; 46(11): 2076−2084 DOI: 10.13374/j.issn2095-9389.2024.01.23.004 [29] Liu C, Chen W, Zhang T. Wavelet-Hilbert transform based bidirectional least squares grey transform and modified binary grey wolf optimization for the identification of epileptic EEGs. Biocybern. Biomed. Eng., 2023; 43(2): 442−462 DOI: 10.1016/j.bbe.2023.04.003