Attention as an RNN

论文地址：

https://arxiv.org/pdf/2405.13956

引言
- Transformers在序列建模方面的突破
- Transformers在推理阶段的计算成本问题
- Aaren模型的目标：保持Transformer性能，同时提高计算效率
背景
- RNN及其优缺点
- 注意力机制及其优缺点
方法
- 将注意力视为RNN，包括计算注意力输出的两种方式
- 将流行的基于注意力模型视为RNN变体
- 提出一种基于并行前缀和算法的注意力多对多RNN高效计算方法
- Aaren模型介绍
实验
- 在38个数据集上比较Aaren和Transformer的性能和计算效率
- 结果表明Aaren性能接近Transformer，同时计算效率更高
相关工作
结论
RNNs和注意力机制
- RNNs在序列建模中的优势和局限性
- 注意力机制的优势和局限性
注意力的RNN视角
- 将注意力视为RNN，并分析其多对一和多对多RNN输出计算方式
- 将流行的基于注意力模型视为RNN变体
基于并行前缀和算法的注意力多对多RNN高效计算方法
- 提出基于并行前缀和算法的注意力多对多RNN高效计算方法
Aaren模型
- Aaren模型的介绍，包括其堆叠方式
- Aaren模型的训练和推理效率优势
Aaren和Transformer的性能和计算效率对比
- 在38个数据集上对比了Aaren和Transformer的性能和计算效率
- Aaren模型在性能接近Transformer的同时，具有更高的计算效率
相关工作
- 相关工作的简要概述

是有附录的论文