如题
建议重新学习一下2维卷积是怎么做的,通道上参数不共享
哦哦,多谢了,我改正!
生成的参数是channel*w*h个
卷积层的参数是共享的,比全连接层的参数要少得多,如果是1*1的卷积核,那么这一层参数就只有2*filters个了吧。
在残差网络里面也用到了1×1,主要是为了匹配维度
1×1降低参数数量
现在有点理解了,主要还是降维防止过拟合
卷积核的权值共享的吧?那一次卷积不就是能少W x H倍的参数了吗?
反正resnet上用1x1的卷积而非全连接层。
卷积参数在通道上不共享
可是在1x1前提下,卷积层参数共享,但是全连接的参数是卷积层的“通道”倍啊
参数量计算量无区别,输入输出shape有区别
我的意思是如果效果一样,那我们肯定可以考虑用卷积层去替代全连接极大地减少参数。
道理上还真是这样,不知道具体框架里有没有其他优化。
那如果全连接层的输出跟输入一样的形状的话,跟1x1卷积层还有什么区别呢?
打错了。卷积层输入形状没要求。全连接层输入形状是后面输出形状决定的,因为要做矩阵乘法。
你是说卷积层对输入形状有要求吗?
感觉全连接层对输入形状没要求,而全连接层对输入形状有要求。
建议重新学习一下2维卷积是怎么做的,通道上参数不共享
哦哦,多谢了,我改正!
生成的参数是channel*w*h个
卷积层的参数是共享的,比全连接层的参数要少得多,如果是1*1的卷积核,那么这一层参数就只有2*filters个了吧。
在残差网络里面也用到了1×1,主要是为了匹配维度
1×1降低参数数量
现在有点理解了,主要还是降维防止过拟合
卷积核的权值共享的吧?那一次卷积不就是能少W x H倍的参数了吗?
反正resnet上用1x1的卷积而非全连接层。
卷积参数在通道上不共享
可是在1x1前提下,卷积层参数共享,但是全连接的参数是卷积层的“通道”倍啊
参数量计算量无区别,输入输出shape有区别
我的意思是如果效果一样,那我们肯定可以考虑用卷积层去替代全连接极大地减少参数。
道理上还真是这样,不知道具体框架里有没有其他优化。
那如果全连接层的输出跟输入一样的形状的话,跟1x1卷积层还有什么区别呢?
打错了。卷积层输入形状没要求。全连接层输入形状是后面输出形状决定的,因为要做矩阵乘法。
你是说卷积层对输入形状有要求吗?
感觉全连接层对输入形状没要求,而全连接层对输入形状有要求。