标签:Longformer

深入理解 BigBird 的块稀疏注意力

4## 引言 基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...

使用 Informer 进行多元概率时间序列预测

介绍 几个月前,我们介绍了 Time Series Transformer,它是 Vanilla Transformer (Vaswani et al., 2017) 应用于预测的模型,并展示了单变量概率预测任务的示...