Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer( 四 ) _生活百科

多头注意力机制的计算是query和key先计算Attention矩阵A，再对V进行加权，也就是上图等号左边的计算顺序，复杂度是序列长度的平方。为了避免计算\(L^2\)的注意力矩阵，作者采用矩阵分解\(q^{\prime} \in R^{L,r},k^{\prime} \in R^{L,r}\) ，这里r<d<<L，配合矩阵乘法的结合律，K先和V计算再和Q内积，把空间复杂度从平方级降低到线性。但是注意力矩阵过softmax之后无法直接做可逆转换得到\(q^{\prime},k^{\prime}\), 因此作者提出了使用positive Random Feature对QK进行映射，使得映射后的矩阵\(q^{\prime},k^{\prime}\)内积可以近似Attention矩阵。简单解释就是以下的变换
\[softmax(QK^T)V = \phi(Q) \cdot \phi(K)^T \cdot V = \phi(Q) \cdot（\phi(K)^T \cdot V）\]所以Performer的核心在\(\phi\)核函数的设计使得映射后的QK内积可以高度近似注意力矩阵，具体设计如下

文章插图
这里\(SM(x,y) = exp(x^Ty)\)也就是原。始的注意力矩阵,按照\(f(x)=exp(w^Tx-\frac{||x||^2}{2})\)对Q和K进行变换后，QK内积的期望就等于原始的注意力矩阵。不过在实际计算中只能对随机变量w进行有限次采样, 因此是近似原始注意力矩阵。论文有大量篇幅在进行推导和证明，这里就不做展开了。
效果对比我们直接参考Google给出的效果对比，横轴是速度，纵轴是效果（多任务平均值），点的大小是内存。整体上BigBird还是拔得头筹，它并不是所有任务的SOTA但是整体效果稳定优秀，想看详细对比结果的参考REF2~

文章插图

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer( 四 )

推荐阅读

2023年金华市江滨小学新生入学网上报名模拟演练流程

失去了才后悔那些总是在想前任的星座

关于甜菊花的基本详情介绍甜菊花

硬盘分区表损坏修复-怎样修复硬盘分区表-

购买电视柜注意事项有哪些

飞科剃须刀怎么样(飞度剃须刀怎么样)

新学期中学校长国旗下讲话新学期中学校长开学讲话

怎么把图片变成cad图怎么把图片保存成表格文件名

2020海口普通参保企业如何申请稳岗返还？

吃芋头放屁多是怎么回事

秋葵是什么东西秋葵能吃吗

网络上说的爸爸什么意思网络上喊爸爸什么意思

勤学的成语关于勤学的成语有哪些

pd协议什么意思

厦门市异地就医怎么报备?线上线下办理渠道

幻书启世录7-12最简单通关打法阵容推荐,2020新发布

电脑vt开启教程电脑vt开启教程windows

驾驶司机50度白酒喝多少算醉驾 50度白酒喝多少为醉驾

cff趣味灯谜答案大全

炒过的黑芝麻可以再洗么

Bert不完全手册9. 长文本建模 BigBird &amp; Longformer &amp; Reformer &amp; Performer( 四 )

推荐阅读

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer( 四 )