LReLU、ELU、maxout 等激活函数 sigmoid函数的梯度随着x的增大或减小和消失,而ReLU不会。2使用批规范化 通过规范化操作将输出信号xx规范化到均值为0,方差为1保证网络的稳定性.从上述分析分可以看到梯度裁剪:主要针对梯度爆炸问题,设置一个阈值,当梯度查过这个阈值之后将它限制在这个范围之内。 5.LSTM 全称是长短期记忆网络 首次在image大赛推出的深度学习模型是哪个?L2和L1正则化的区别 正则化的目的是限制参数过多或者过大,避免模型更加复杂 使用L1范数,可以使得参数稀疏化