b
+
激活函数(如re露)
你说的那句“大模型其实就是
y
=
x*w
的不断代入和评估”——可以说非常贴切地表达了深度学习中模型训练的过程。我们来进一步拆解这个观点。
?
二、用“y
=
x·w”理解大模型的核心机制
1。
输入(x)
这是你给模型喂的特征,比如:
?t图像识别中,一张图片的像素矩阵
?t语言模型中,一段文本被嵌入成词向量
?t音频识别中,是声波的频谱特征
2。
权重(w)
这个可以理解为“模型的记忆”或“经验参数”。这些参数并不是你手动写出来的,而是模型从成千上万的数据中“学出来”的。
比如说,模型在看了10万个“苹果”的图像后,自己推理出哪些像素模式是“苹果”的共同特征,然后把这些“经验”编码进权重w里。
3。
输出(y)
就是模型对x的一个“预测”,这个预测并不是100%准确的,而是“在经验基础上,最有可能是的那个结果”。
?
三、大模型编程的流程:本质是“调数据,不调逻辑”
传统编程流程是:
if
天气
==
“下雨”:
带伞else: