Audio

本贴最后更新于 246 天前,其中的信息可能已经时过境迁

Lower Frame Rate Tech

作为传统的交叉熵训练的神经网络声学模型的替代方法,其中,交叉熵方法每 10ms 输出一帧。与传统模型相反,CTC 联合声学模型一起学习对齐,并且除了传统声学状态单元外还输出空白符号。这允许 CTC 模型以低帧率运行,与传统模型中的 10ms 不同,其是每 30ms 输出一帧,从而提高了整体系统速度。在这项工作中,我们探索传统模型在低帧率下的行为。在一个大词汇量的语音搜索任务上,我们将证明,使用传统模型,与基于 CTC 的模型相比,我们可以将帧率降低到 40ms,同时将 WER 相对提高 3%。

SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition

EE ASR 模型的两种框架:

  1. NN + CTC 模型

    1. 20 年前占据主要地位
    2. 假设每一个 tokens 之间独立,需要强大的语言模型,进行后处理
  2. Attention-based 模型

    1. 效果劣于第一种,但是功能更完整

SAN-M:由 self-attention + DFSMN 两部分组合构成(deep feed-forward sequential memory network),作者认为两个是功能上互补的:

  1. 自注意力机制擅长捕捉全局长期依赖关系,可以在整个序列内直接建模任意两个位置之间的依赖。
  2. 而单个 DFSMN 内存块主要用于建模局部短期依赖关系,而多层堆叠则可用于捕捉长期依赖。
  3. 自注意力是通过注意力权重来直接捕捉元素之间的依赖,而 DFSMN 则是通过卷积和门控 memory cell 来捕捉局部依赖。

FSMN:feedward sequential memory network 相关

FSMN 在某个时间 t 的 hidden state,额外增加 t 时刻之前 N1 个 hidden state 和 t 时刻之后 N2 个 hidden state 状态,进行综合判断,相当于增大了某一个计算单元的感受野,捕捉局部依赖关系;

公式如下:

image

image

image

compact FSMN

cFSMN 和 LoRA 思路类似,讲 hidden state 映射成向量,在向量层面进行梯度计算,减少参数量

image

deep FSMN

deep FSMN 是为了解决模型 memory block 增加层数,导致层数过多,梯度 vanishing 情况,所以在计算过程进行 hidden state 的“选择”和“跳跃”

Screenshot 2024-03-20 at 17.13.24

延迟问题

因为在每个时间 t,会考虑后 N2 个 hidden state 状态,所以会有时间延迟,时间延迟 \tau 计算方式:

\tau=\sum_{\ell=1}^L N_2^{\ell} \cdot s_2

Experiments Design

  1. 数据集:2000 hours data from Switchboard(SWD)& Fisher(FSH)

  2. 指标:WER word error rate

  3. 音频数据细节:

    1. 采样率 8kHZ

    2. Hamming window 25 ms

    3. 步长:10ms frame shift

    4. 特征数:72 filter bank features

      1. 72 维特征的分布 最终得到的 72 维滤波器组特征中, 24 维是 log 能量谱计算结果, 另外 24 维是其一阶导数,剩余 24 维是二阶导数。

训练细节:

根据这段描述,作者对 DFSMN(深度因果卷积状态机内存网络)模型的架构进行了多种探索,主要包括以下几个方面:

  1. 模型架构表示
    他们使用"372-Nf[2048-512(N1;N2;s1;s2)]-Nd*2048-512-9004"来表示 DFSMN 的架构。
  • 3*72 表示输入是 72 维特征,上下文窗口为 3
  • Nf 是 DFSMN 层数
  • [2048-512(N1;N2;s1;s2)]表示每层包含 2048 个神经元,接着是内核尺寸为(N1,N2)、步长为(s1,s2)的投影层(512 维)
  • Nd 是最终的 ReLU DNN 隐层数
  • 最后是 512 维线性投影层,输出 9004 维(对应发音状态数)
  1. 实验设置
  • 固定参数:N1=N2=20(内核大小), Nd=3(ReLU DNN 层数)
  • 变化 DFSMN 层数 Nf: 6/8/10/12 层
  • 变化步长 s1、s2: 实验 1 用步长 1,实验 2 用步长 2
  1. 实验结果
  • 实验 1 和 2 表明,使用步长(stride)对于 memory block 是有益的
  • 从实验 2 到 5,通过加深网络层数,可以持续提高模型性能

总的来说,作者通过调整 DFSMN 层数、内核尺寸、步长等超参数,探索了不同架构对语音识别性能的影响,发现加深网络层数和使用合适的步长都可以提升模型性能。

步长增大、cFSMN 层数加深,效果变好。

pyramidal FSMN

最新的 FSMN 计算方式

Screenshot 2024-03-20 at 17.15.28

CIF

经典的注意力识别模型因 “要对整句语音编码后投入注意力” 的特点面临着无法支持在线(流式)识别、无法提供语音边界时间戳等问题。

研究员将脉冲神经网络中的整合发放思想进行连续化,提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放(Continuous Integrate-and-Fire,CIF)。CIF 会对先后到来的声学信息依次进行整合,当整合的信息量达到识别阈值,将整合后的信息发放以用作后续识别。其与注意力模型的对齐形态对比如下图 1 所示。

image

连续整合发放(CIF)应用于编解码框架。在每一个编码时刻,CIF 分别接收编码后的声学编码表示及其对应的权重(表征了蕴含的信息量)。之后,CIF 不断地积累权重并对声学编码表示进行整合(加权求和的形式)。

当积累的权重达到阈值后,意味一个声学边界被定位到。此时,CIF 模拟了整合发放模型的处理思想,将当前编码时刻的信息分为两部分(如图 1 右图所示):

一部分用来完成当前标签的声学信息整合(权重可构建一个完整分布)。

另一部分用作下一个标签的声学信息整合。

  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖 • 2 关注

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...