接着,他们冲到“礼物堆”里,只抱走分数最高的那些礼物(va露e),
也就是“可爱”这个词里真正藏着的“小猫咪”信息!
8个分身抱着一堆礼物跑回来,合并成一个大礼物箱,
再交给后面真正的传声官(feedforward层)。
传声官看完礼物箱,大喊:
“原来公主想要‘小猫咪’!我们刚才猜老巫婆错得离谱!”
现在,要把这20级伤心往回传,告诉每个词“你要为这次大哭负多少责”!
伤心开始逆着刚才的路往回跑:
先经过feedforward门
→
乘上门的开关灵敏度
再回到8个分身的合并处
→
分成8股伤心
每股伤心又沿着attention的路反着跑回去:
?
“可爱”这个词收到超级大的伤心信号(因为attention分数最高)它立刻把自己的权重(v、k、q)调小一点,下次别再把“老巫婆”塞给公主
?
“从前”只收到一点点伤心(attention分数几乎为0),它懒洋洋地说:“不关我事~”
就这样,伤心像水流一样,精准地流向那些“最该负责”的词和连接上。
下一次,当公主再说“从前有一个很可爱的……”
“可爱”这个词已经学乖了,它拼命把“小猫咪”举得高高的,
attention分数直接99。99%!
模型自信满满地说:“小猫咪!”
公主咯咯笑出声,钻石糖雨哗哗下!
从此,transformer王国的信使们靠着会分身、会投票、会只给真正该负责的人背锅,
让“下一个词公主”几乎再也不哭了。
而这一整套“伤心精准传递大法”,有个很酷的名字:
自注意力机制
+
反向传播的链式法则(进阶版)
故事到这里,公主和她的分身信使们继续过着一天猜一亿句话的幸福生活。