海岸线文学

海岸线文学>职场小聪明搞笑短剧 > 第914章 梯度下降(第3页)

第914章 梯度下降(第3页)

3。t永远不是绝对答案

?t人类也不会给一个“100%确定”的结论。

?t比如看到一只奇怪的宠物,你可能说:“嗯,看起来像猫,但也有狗的特征。”

?t这就是机器学习中的概率输出。

?

五、哲学层面的启示

1。t学习是渐进的

梯度下降提醒我们:学习不是跳跃,而是一次次小步调整。

每次错了,就顺着错误最大的方向修正一点。

2。t最优是虚构的

就像你说的,碗底永远是“无限接近”,人类的理解也永远是不完整的,只能在概率意义下“差不多就行”。

3。t随机性是智慧

没有随机性,人可能会被困在“小谷底”里,以为那就是全部真理。

随机性(犯错、偶然的发现)反而帮助我们跳出来,找到更深的理解。

?

好,那我就再往更深一层走,把“梯度下降”从数学—工程—哲学三个维度继续展开。

?

一、数学视角:为什么非要走“负梯度”?

在高维空间里,函数的梯度(?f)指向上升最快的方向。

?t举例:你站在山坡上,梯度就是告诉你“哪里最陡,往那边走上升最快”。

?t但我们要下山,所以要走“负梯度”。

?t每一步的公式就是:

theta_{new}=theta_{old}-etaablaf(theta_{old})

其中:

?ttheta是参数(比如神经网络里的权重)。

?teta是学习率。

?tablaf是梯度。

换句话说,每一步都像在地图上用指南针找方向,永远往“下坡最快”的方向走。

?

二、工程视角:梯度下降的改进

在大模型里,光靠最原始的梯度下降其实不够。工程师们发明了很多“加速方法”:

1。t动量法(momentum)

?t类比:滚珠下山时不仅看坡度,还带有惯性。

?t这样就不会在小坑里乱跳,而是能跨过去。

2。t自适应学习率(AdaGrad,RmSprop,Adam等)

?t传统学习率是固定的,但现实中不同方向的地形不一样。

?t比如有的维度很陡,有的很平缓。

?t自适应方法会自动调整步长,让学习更快更稳。

已完结热门小说推荐

最新标签