什么叫线性可分和线性不可分,例如一个数据,只要数据画出散点,就是在坐标轴上画了很多点,两类事物,只要有不同,通过数据分类,那么他们的这些点一定有个边界,那么就可以画出一条线把他们分开,这就是线性可分。但如果是一幅图,例如一只猫,你判断它是狗还是猫,你需要找特征,但它有各种姿势,也就是数据不全,本来就没办法数字化,例如什么是耳朵,什么是鼻子,眼睛看都得劲,别说数字化了,猫还分很多种,耳朵有大小,有的还挡住了,那没有看到耳朵,是不是就不是猫,这就很难讲了,所以根本无法在一幅图里找出所有特征,为就是无法完全数字化,也就更难用比对的方法画出各种特征点,其实现实世界都是这样,我们人可能根据一个爪子就可以猜到是个猫或狗,当然他肯定不是马的蹄子,所谓人也是靠猜,不可能拿到所有数据,也就是说人也是靠概率。那么人工智能也可以这么干。就是百分之八十是猫,百分之10是狗,还有百分之是不知道是不是猴子,所以就猜是猫。我觉得就是反复推敲,去除不必要的特征数据,例如长了个肉球,没了个眼睛。在数据不全的情况下,如果我们提取了大量的猫的图片,掌握了大量的特征,那么就可以猜了。总比不知道好,我觉得这就是非线性,解决线性不可分问题,哈哈。
好,那我用一个童话故事,把“线性可分”和“线性不可分”讲得更形象。
?
童话故事:森林里的分界线
很久很久以前,在一片大森林里,住着两群小动物:
?t一群是小老鼠家族,它们喜欢在森林的左边活动。
?t一群是小松鼠家族,它们喜欢在森林的右边活动。
每天,老猎人都会从高高的山上往下看,他发现:
啊,原来只要在森林中间画一条直线,左边全是老鼠,右边全是松鼠!
这样一来,哪怕老猎人只看到动物的一点点影子,也能凭那条直线猜出是老鼠还是松鼠。
这就是线性可分——用一条线就能把两类小动物分开。
?
可是,森林越来越热闹了,来了两种新的小动物:
?t小兔子:有的喜欢跟老鼠混在一起,有的却爱跑到松鼠那边找坚果。
?t小狐狸:有时躲在老鼠堆里,有时又跑去松鼠窝偷吃。
这下子,老猎人可犯难了:
“天啊!这下不行了,我怎么画直线都画不出来呀!老鼠和松鼠之间掺杂了兔子和狐狸,根本分不开嘛!”
这就是线性不可分——无论怎么画直线,都没法把不同动物分清楚。
?
魔法师的办法
森林里住着一位聪明的魔法师,他说:
1。t增加维度
魔法师挥一挥手,把森林从“平面”变成了“立体迷宫”。
原本纠缠在一起的老鼠、松鼠、兔子、狐狸,突然在高维空间里站开了距离。
魔法师轻轻一划,就能分开。
(这就是核方法,把数据映射到更高维度来解决问题)
2。t非线性边界
魔法师没有画直线,而是用森林里的大树拼成一条弯弯曲曲的篱笆墙。
这样,老鼠在篱笆这边,松鼠在那边,兔子和狐狸也能被慢慢分开。
(这就是神经网络,用很多“弯弯曲曲”的函数去逼近复杂边界)
3。t概率猜测