自动编码器与PCA的比较

主成分分析(pca)和自编码器(autoencoders, ae)是无监督学习中的两种代表性方法。
pca 的地位不必多说,只要是讲到降维的书,一定会把 pca 放到最前面,它与 lda 同为机器学习中最基础的线性降维算法,svm/logistic regression、pca/lda 也是最常被拿来作比较的两组算法。
自编码器虽然不像 pca 那般在教科书上随处可见,但是在早期被拿来做深度网络的逐层预训练,其地位可见一斑。尽管在 relu、dropout 等神器出现之后,人们不再使用 autoencoders 来预训练,但它延伸出的稀疏 autoencoders,降噪 autoencoders 等仍然被广泛用于表示学习。2017 年 kaggle 比赛 porto seguro’s safe driver prediction的冠军就是使用了降噪 autoencoders 来做表示学习,最终以绝对优势击败了手工特征工程的选手们。
pca 和 autoencoders 都是非概率的方法,它们分别有一种对应的概率形式叫做概率 pca (probabilistic pca) 和变分自编码器(variational ae, vae)。
自编码器的应用
第一是数据去噪。
第二是为进行可视化而降维。
第三是进行图像压缩。
第四传统自编码器被用于降维或特征学习。
自动编码器与pca的比较
1)它是一种类似于 pca 的无监督机器学习算法。大体上,autoencoder可以看作是pca的非线性补丁加强版,pca的取得的效果是建立在降维基础上的。
2)它要最小化和 pca 一样的目标函数。自动编码器的目标是学习函数 h(x)≈x。换句话说,它要学习一个近似的恒等函数,使得输出 x^ 近似等于输入 x。
3)它是一种神经网络,这种神经网络的目标输出就是其输入。自动编码器属于神经网络家族,但它们也和 pca(主成分分析)紧密相关。
总之,尽管自动编码器与 pca 很相似,但自动编码器比 pca 灵活得多。在编码过程中,自动编码器既能表征线性变换,也能表征非线性变换;而 pca 只能执行线性变换。因为自动编码器的网络表征形式,所以可将其作为层用于构建深度学习网络。设置合适的维度和稀疏约束,自编码器可以学习到比pca等技术更有意思的数据投影。
正如主成分分析(principal component analysis,pca)算法,通过降低空间维数去除冗余,利用更少的特征来尽可能完整的描述数据信息。
实际应用中将学习得到的多种隐层特征(隐层数通常多个)与原始特征共同使用,可以明显提高算法的识别精度。
自编码器与dl
仿照stacked rbm构成的dbn,提出stacked autoencoder,为非监督学习在深度网络的应用又添了猛将。
自编码器在实际应用中用的很少,2012年人们发现在卷积神经网络中使用自编码器做逐层预训练可以训练深度网络,但很快人们发现良好的初始化策略在训练深度网络上要比费劲的逐层预训练有效得多,2014年出现的batch normalization技术使得更深的网络也可以被有效训练,到了2015年底,通过使用残差学习(resnet)我们基本上可以训练任意深度的神经网络。
各种自编码器的变种
如果在自编码器的基础上继续加上一些约束条件的话,就可以得到新的深度学习方法。
1)去噪自动编码器
2)稀疏自动编码器
3)变分自动编码器(vae)
4)收缩自动编码器(cae/contractive autoencoder)
训练方法
训练方法有很多,几乎可以采用任何连续化训练方法来训练参数,例如梯度下降、最小二乘、循环算法等等。但由于其模型结构不偏向生成型(一般是判别型),无法通过联合概率等定量形式确定模型合理性。

如何利用区块链技术来构建物联网系统
三星再次打破世上最高容量SSD记录
什么是移轴镜头
LG化学与南京经开区签署圆柱动力电池项目协议
通信行业有必要从追求用户高数量转向高质量发展转变了
自动编码器与PCA的比较
健身房中的智能电子屏将会为健身房带来哪些改变
涤纶电容的特点和优缺点
基于PLC电气成套设备的无线监控物联网解决方案
稳压二极管原理解析
周立功来讲解哈希表的实现
“5G+工业互联网”十大创新应用发布!
美国NNCrystal推出远程激发产品
恒洁卫浴驱动智能马桶创新升级,以“智”提“质”为核心
结合STM32、Arduino理解红外遥控编解码通信原理
小米6白色版今日十点首卖,网友直呼:蓝瘦香菇买不到
扫描仪的主要性能指标
今年卖的最好的高端手机 居然有华为荣耀magic,小米note2
霍尔开关的工作原理 霍尔开关的优点 霍尔开关在气缸上的应用
单片机“花式点灯”实现方法