Lower Frame Rate Tech
作为传统的交叉熵训练的神经网络声学模型的替代方法,其中,交叉熵方法每 10ms 输出一帧。与传统模型相反,CTC 联合声学模型一起学习对齐,并且除了传统声学状态单元外还输出空白符号。这允许 CTC 模型以低帧率运行,与传统模型中的 10ms 不同,其是每 30ms 输出一帧,从而提高了整体系统速度。在这项工作中,我们探索传统模型在低帧率下的行为。在一个大词汇量的语音搜索任务上,我们将证明,使用传统模型,与基于 CTC 的模型相比,我们可以将帧率降低到 40ms,同时将 WER 相对提高 3%。
SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition
EE ASR 模型的两种框架:
-
NN + CTC 模型
- 20 年前占据主要地位
- 假设每一个 tokens 之间独立,需要强大的语言模型,进行后处理
-
Attention-based 模型
- 效果劣于第一种,但是功能更完整
SAN-M:由 self-attention + DFSMN 两部分组合构成(deep feed-forward sequential memory network),作者认为两个是功能上互补的:
- 自注意力机制擅长捕捉全局长期依赖关系,可以在整个序列内直接建模任意两个位置之间的依赖。
- 而单个 DFSMN 内存块主要用于建模局部短期依赖关系,而多层堆叠则可用于捕捉长期依赖。
- 自注意力是通过注意力权重来直接捕捉元素之间的依赖,而 DFSMN 则是通过卷积和门控 memory cell 来捕捉局部依赖。
FSMN:feedward sequential memory network 相关
FSMN 在某个时间 t 的 hidden state,额外增加 t 时刻之前 N1 个 hidden state 和 t 时刻之后 N2 个 hidden state 状态,进行综合判断,相当于增大了某一个计算单元的感受野,捕捉局部依赖关系;
公式如下:
compact FSMN
cFSMN 和 LoRA 思路类似,讲 hidden state 映射成向量,在向量层面进行梯度计算,减少参数量
deep FSMN
deep FSMN 是为了解决模型 memory block 增加层数,导致层数过多,梯度 vanishing 情况,所以在计算过程进行 hidden state 的“选择”和“跳跃”
延迟问题
因为在每个时间 t,会考虑后 N2 个 hidden state 状态,所以会有时间延迟,时间延迟 \tau 计算方式:
Experiments Design
-
数据集:2000 hours data from Switchboard(SWD)& Fisher(FSH)
-
指标:WER word error rate
-
音频数据细节:
-
采样率 8kHZ
-
Hamming window 25 ms
-
步长:10ms frame shift
-
特征数:72 filter bank features
- 72 维特征的分布 最终得到的 72 维滤波器组特征中, 24 维是 log 能量谱计算结果, 另外 24 维是其一阶导数,剩余 24 维是二阶导数。
-
训练细节:
根据这段描述,作者对 DFSMN(深度因果卷积状态机内存网络)模型的架构进行了多种探索,主要包括以下几个方面:
- 模型架构表示
他们使用"372-Nf[2048-512(N1;N2;s1;s2)]-Nd*2048-512-9004"来表示 DFSMN 的架构。
- 3*72 表示输入是 72 维特征,上下文窗口为 3
- Nf 是 DFSMN 层数
- [2048-512(N1;N2;s1;s2)]表示每层包含 2048 个神经元,接着是内核尺寸为(N1,N2)、步长为(s1,s2)的投影层(512 维)
- Nd 是最终的 ReLU DNN 隐层数
- 最后是 512 维线性投影层,输出 9004 维(对应发音状态数)
- 实验设置
- 固定参数:N1=N2=20(内核大小), Nd=3(ReLU DNN 层数)
- 变化 DFSMN 层数 Nf: 6/8/10/12 层
- 变化步长 s1、s2: 实验 1 用步长 1,实验 2 用步长 2
- 实验结果
- 实验 1 和 2 表明,使用步长(stride)对于 memory block 是有益的
- 从实验 2 到 5,通过加深网络层数,可以持续提高模型性能
总的来说,作者通过调整 DFSMN 层数、内核尺寸、步长等超参数,探索了不同架构对语音识别性能的影响,发现加深网络层数和使用合适的步长都可以提升模型性能。
步长增大、cFSMN 层数加深,效果变好。
pyramidal FSMN
最新的 FSMN 计算方式
CIF
经典的注意力识别模型因 “要对整句语音编码后投入注意力” 的特点面临着无法支持在线(流式)识别、无法提供语音边界时间戳等问题。
研究员将脉冲神经网络中的整合发放思想进行连续化,提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放(Continuous Integrate-and-Fire,CIF)。CIF 会对先后到来的声学信息依次进行整合,当整合的信息量达到识别阈值,将整合后的信息发放以用作后续识别。其与注意力模型的对齐形态对比如下图 1 所示。
连续整合发放(CIF)应用于编解码框架。在每一个编码时刻,CIF 分别接收编码后的声学编码表示及其对应的权重(表征了蕴含的信息量)。之后,CIF 不断地积累权重并对声学编码表示进行整合(加权求和的形式)。
当积累的权重达到阈值后,意味一个声学边界被定位到。此时,CIF 模拟了整合发放模型的处理思想,将当前编码时刻的信息分为两部分(如图 1 右图所示):
一部分用来完成当前标签的声学信息整合(权重可构建一个完整分布)。
另一部分用作下一个标签的声学信息整合。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于