LReLU、ELU、maxout 等激活函数 sigmoid函数的梯度随着x的增大或减小和消失,而ReLU不会。ww的存在,所以ww的大小影响了梯度的消失和爆炸,Batch Normalization 就是通过对每一层的输出规范为均值和方差一致的方法LSTM 全称是长短期记忆网络 首次在image大赛推出的深度学习模型是哪个?Alex net 2012年冠军,成为第一个应用深度神经网络的应用 循环神经网络的循环是指什么?正则化其实是一种策略,以增大训练误差为代价来减少测试误差的所有策略我们都可以称作为正则化。