论文题目:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
论文链接:https://arxiv.org/pdf/2012.07436.pdf
论文目的:
解决长序列的时间序列预测问题中,因为距离太长,dependency关系没有被很好的捕捉导致预测效果不好的问题。最近的研究显示transformer在这方面做的比之前的work比如rnn好,但是transformer有一些自身的问题:比如时间复杂度高,内存使用高,encoder-decoder结构自身的局限性。为了解决这些问题,这篇paper提出了一种基于transformer的模型叫informer。
informer有三个特性:(1)提出的ProbSparse Self-attention机制,优化了原本的attention机制的时间和空间复杂度,可以达到O(Llog L);(2)the self-attention distilling highlights dominating attention by halving cascading layer input, and efficiently handles extreme long input sequences;(3)generative style的decoder。
模型设计与工程实践:
总结构
input & embedding -> encoder == encoder output
input & embedding, encoder output -> decoder -> projection == final output
Encoder的结构
有多层ProbSparse Self-attention layer和Self-attention Distilling layer,还有一层normalization layer。
ProbSparse Self-attention
传统的self-attention机制会成为一个长尾的形状,active的queries在“head”,“lazy”queries在tail。作者设计了ProbSparse Attention来选取active “queries”,舍弃“lazy” queries的部分。
Self-attention Distilling layer
encoder的映射会带来冗余,这一层distilling出最重要的部分。
结构为conv->norm->activation->maxPool.
Decoder的结构
decoder是generative style的。先经过2层multihead attention层,再做一下norm。
Projection的结构
就是一层linear模型。
loss function
使用了MSE loss。