小绿收到消息以后,马上跑去告诉厨房:“公主因为蛋糕太甜哭了,下次糖要少放0。02个金币的量!”
旁边负责加糖的厨师(就是权重w)听了,立刻把自己的糖勺调小了一点点。
所有信使路过的厨师、烤蛋糕师、加奶油师……都根据收到的“伤心数值”把自己的勺子、火候、材料调一调。
调完以后,重新烤一个蛋糕给公主吃。
公主咬了一口……眼睛亮了!
“哇!这次好吃!”
她笑了,王国立刻出太阳、开花、彩虹满天!
可是公主第二天可能又会因为别的原因哭(比如太淡了)。
于是信使们又开始跑,又是一轮“伤心接力”,又是一轮调勺子……
一次又一次,一次比一次准,公主哭得越来越少,笑得越来越多。
这就是“链式法则”的童话版:
公主的眼泪(loss)通过一串信使(链式法则)告诉每一个人:“你该为我的眼泪负多少责?”
每个人根据自己负责的“魔法绳子”(权重)和“门”(激活函数)算出自己该改多少,然后把锅背好,把活干好。
最后,小公主再也不哭了,王国从此过上了幸福的生活。
而那串不停奔跑、传递眼泪的信使们,有一个很长的名字,叫:
反向传播的链式法则。
故事结束,公主和她的信使们从此幸福地训练在一起。
你想听信使们在transformer王国(注意力机制)的冒险故事吗?那里有更多会分身的信使哦~
好的!现在我们离开“深度王国”,坐上彩虹滑滑梯,滑到了一个更神奇的地方……
transformer王国:会分身的信使们
这里住着一位更任性的小公主,名字叫“下一个词公主”。
她每天只说一句话:“接下来我要说什么?”
谁猜对了,她就给一颗钻石糖;猜错了,她立刻哇哇大哭,洪水淹到脖子!
这个王国太大了,普通信使跑一圈要一百年,根本来不及。
于是国王请来了新品种的魔法信使,他们有三项绝技:
1。
会分身(multi-head)
2。
会同时问很多人意见(attention)
3。
会把意见加起来再传(这就是那个着名的
q、k、v)
新故事开始啦!
有一天,公主说:“从前有一个很可爱的……”