论文阅读笔记:理解Informer模型结构(AAAI 2021 best paper)

--

论文题目:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

论文链接:https://arxiv.org/pdf/2012.07436.pdf

论文目的:

解决长序列的时间序列预测问题中,因为距离太长,dependency关系没有被很好的捕捉导致预测效果不好的问题。最近的研究显示transformer在这方面做的比之前的work比如rnn好,但是transformer有一些自身的问题:比如时间复杂度高,内存使用高,encoder-decoder结构自身的局限性。为了解决这些问题,这篇paper提出了一种基于transformer的模型叫informer。

informer有三个特性:(1)提出的ProbSparse Self-attention机制,优化了原本的attention机制的时间和空间复杂度,可以达到O(Llog L);(2)the self-attention distilling highlights dominating attention by halving cascading layer input, and efficiently handles extreme long input sequences;(3)generative style的decoder。

模型设计与工程实践:

总结构

input & embedding -> encoder == encoder output

input & embedding, encoder output -> decoder -> projection == final output

Encoder的结构

有多层ProbSparse Self-attention layer和Self-attention Distilling layer,还有一层normalization layer。

ProbSparse Self-attention

传统的self-attention机制会成为一个长尾的形状,active的queries在“head”,“lazy”queries在tail。作者设计了ProbSparse Attention来选取active “queries”,舍弃“lazy” queries的部分。

Self-attention Distilling layer

encoder的映射会带来冗余,这一层distilling出最重要的部分。

结构为conv->norm->activation->maxPool.

Decoder的结构

decoder是generative style的。先经过2层multihead attention层,再做一下norm。

Projection的结构

就是一层linear模型。

loss function

使用了MSE loss。

--

--

No responses yet