MLP在AI中的重要性不言而喻,是CNN,Transformer等网络的基石,但是其可解释性基本为0,因此限制了MLP在金融,物理等学科上的应用,KAN系列从小规模数学集上切入,具有完全可解释性:符号主义者的狂欢;
KAN与传统的MLP不一样的是,KAN利用的不是逼近定理,而是KA定理;
我们先简单回顾一下mlp的逼近定理:一个带有权重和偏置的线性变换,以及一个激活函数,使得神经网络可以任意逼近任何非线性函数;
再聊KA定理:如果$f$是一个有界区域上的多元连续函数,那么$f$可以表示为单变量连续函数和二元加法运算的有限组合;
举个例子,假设有一个函数$f(x,y,z)$,我们可以找到一个函数$g_i$(即原文中的φ),使得:
$f(x,y,z)=\sum_{i=1}^{2n+1}g_i(\phi_{i1}(x)+\phi_{i2}(y)+\phi_{i3}(z))$
通过对各个单变量函数的求和,再使用2n+1次(类似奈奎斯特采样)$g_i$操作,即可逼近原函数;
KAN利用符号主义结合BP,解决Science问题,具有可解释性;
原文中详细列出了两者的差别:

受到Kolmogorov-Arnold定理启发,KAN中的激活函数(对应定理中的φ和φ)由固定函数改为可学习的B样条函数(样条函数是一种分段多项式函数,可以拟合任意复杂的非线性关系。KAN采用三次样条函数,相邻段在控制点处满足一阶和二阶导数连续),并把它们从节点挪到了边上。这也是大家质疑的点:难道一个可学习的激活函数就能把MLP的命革了?
φ的定义:
$ϕ(x) = w (b(x) + spline(x));$
其中,$b(x) = silu(x) = x/(1 + e^{−x})$,$spline(x)=\sum_{i=1}^{}c_iB_i(x)$;