深度学习是一种通过多层叠加的非线性处理层构成的计算网络,如图1(a)所示。输入层x 与输出层y 之间包含了多个隐藏层,每个隐藏层节点是一个非线性函数,该函数的输入z 是前层输出的一个线性加权,权重是wij(从上层第i 个输出到本层第j 个处理单元的权重)。这类网络理论上能够拟合从输入向量到输出向量的任意函数。对于分类问题,这个函数可能是一个输入x 属于某个输出类别的概率;对于预测问题,这个函数可能是从x 到y 的复杂变换的一个拟合。如果通过某种逻辑组合使用多个深度学习网络,还能够实现降维、去噪、还原、模拟生成等复杂计算。