好,那我用一个童话故事的方式,给你讲解卷积神经网络(cnn)的原理,让它听起来就像一个有趣的冒险故事。
?
“图像王国的侦探队”——cnn
的故事
在很久很久以前,有一个图像王国。王国里住着许许多多的小像素精灵,它们排成整齐的方阵(就像一张图片的像素矩阵),每天安安静静地待在自己的小格子里。
有一天,国王收到一个神秘的任务:
“请找出这张图片里的内容,它到底是一只猫,还是一只狗?”
国王立刻召集了王国里最厉害的侦探队——卷积神经网络。
?
第一关:卷积侦探
卷积侦探队的成员很特别,他们有放大镜(卷积核),专门在像素精灵的方阵里巡视。
?t第一批侦探喜欢找直线、边缘(低级特征)
?t第二批侦探更厉害,可以看出耳朵、眼睛、胡须(中级特征)
?t第三批侦探能认出猫脸、狗脸(高级特征)
他们的工作方法是:
?t拿着放大镜在王国里“滑动”观察,每次只看一小块区域(局部感受野)。
?t看到有用的特征,就记录在“特征地图”上。
这就好像:第一层卷积核在找线条,第二层卷积核在找形状,第三层卷积核在找完整的物体。
?
第二关:池化守门员
特征地图画得越来越多,国王怕太乱,就请来了池化守门员。
他们的任务是:
?t只留下最重要的特征(最大池化:取最亮的点)
?t把地图缩小(降采样),方便传递信息
这样,虽然细节少了,但重要的特征都保留了,而且侦探队跑得更快了。
?
第三关:全连接智囊团
经过多轮侦探调查和池化整理,所有特征地图被送到全连接智囊团。
这些智囊是超级聪明的数学家,他们会:
?t把所有特征整合成一个长长的清单(展平
flatten)
?t根据经验判断,这张图片到底是猫、狗,还是别的东西
?t最后用
softmax
水晶球算出各种可能性: