比标准Attention快197倍！Meta推出多头注意力机制“九头蛇”-北方财富网

虽然《变形金刚》已经开始在很多视觉任务中大显身手，但是还有一个问题。

也就是说，在处理大图像时很难计算。

例如，当面对一个1080p的图时，其60%以上的计算都花在创建和应用注意力矩阵上。

主要是因为自我关注头数是令牌的平方，令牌数与图的大小成二次关系。

那我能做什么。

好消息是—

现在Meta想出了一个多焦点的操作方法，可以比标准注意力整整快197倍！

而且在提高计算速度的同时，不会牺牲精度，有时甚至可以提高1—2分的精度。

这是怎么回事。

这种方法叫九头蛇注意力，主要是针对视觉转换者。

九头蛇注意力的想法源于线性注意力中一个有点矛盾的点:

使用标准的多头自关注，在模型中增加更多的头可以保持计算量不变。

但是在线性注意中改变操作顺序后，增加更多的头部实际上会降低层的计算成本。

具体来说:

当标准的自我注意头是令牌数的平方时)，通过使用可分解核，我们重新排列操作顺序，使得注意头的数量成为特征d的平方。

然后用九头蛇绝招最大化注意力头数H，使H=D，最后可以化为时空上的O简化运算。

其中九头蛇绝招的基础如下图所示:

前者在Hgt96.后者在Hlt3，内存不足。

当他们在模型中加入更多的头部时，Softmax注意力模型的准确性似乎崩溃了，而多头线性注意力仍然可以保持一致，于是就有了上面的操作。

速度快了197倍，精度还可以更高。

我们来看看九头蛇关注交出的成绩单。

如你所见，九头蛇的注意力比标准注意力快197倍。

伴随着图像大小的增加，显著增加了模型的翻牌数，创建和应用注意矩阵的计算量仅为0.02%。

或者用Hydra Attention替换某个特定的注意力层，也可以在ImageNet上提高模型1%的准确率或者保持与基线相同。

当然，最多可以更换8层。

该成果已入选ECCV 2022研讨会。

其中，有3名中国人，分别是:

傅成阳毕业于清华大学，在北卡罗来纳大学教堂山分校获得硕士和博士学位，现在是元计算机视觉的研究科学家。

戴，毕业于北京大学学士学位和普林斯顿大学博士学位，曾就职于Meta公司。

张培昭，本硕，毕业于中山大学，美国得克萨斯州Aamp博士，m大学，在Meta工作了五年。

论文地址:

涉及

比标准Attention快197倍！Meta推出多头注意力机制“九头蛇”