论文阅读笔记：理解Informer模型结构（AAAI 2021 best paper）

Feb 18, 2021

论文题目：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

论文链接：https://arxiv.org/pdf/2012.07436.pdf

论文目的：

解决长序列的时间序列预测问题中，因为距离太长，dependency关系没有被很好的捕捉导致预测效果不好的问题。最近的研究显示transformer在这方面做的比之前的work比如rnn好，但是transformer有一些自身的问题：比如时间复杂度高，内存使用高，encoder-decoder结构自身的局限性。为了解决这些问题，这篇paper提出了一种基于transformer的模型叫informer。

informer有三个特性：（1）提出的ProbSparse Self-attention机制，优化了原本的attention机制的时间和空间复杂度，可以达到O(Llog L)；（2）the self-attention distilling highlights dominating attention by halving cascading layer input, and efficiently handles extreme long input sequences；（3）generative style的decoder。

模型设计与工程实践：

总结构

input & embedding -> encoder == encoder output

input & embedding, encoder output -> decoder -> projection == final output

Encoder的结构

有多层ProbSparse Self-attention layer和Self-attention Distilling layer，还有一层normalization layer。

ProbSparse Self-attention

传统的self-attention机制会成为一个长尾的形状，active的queries在“head”，“lazy”queries在tail。作者设计了ProbSparse Attention来选取active “queries”，舍弃“lazy” queries的部分。

Self-attention Distilling layer

encoder的映射会带来冗余，这一层distilling出最重要的部分。

结构为conv->norm->activation->maxPool.

Decoder的结构

decoder是generative style的。先经过2层multihead attention层，再做一下norm。

Projection的结构

就是一层linear模型。

loss function

使用了MSE loss。

论文阅读笔记：理解Informer模型结构（AAAI 2021 best paper）

Written by 爱晒太阳的小白猫

No responses yet