从官方的github clone了dygraph的transformer
发现不能用里面的Linear,用FC代替了,还做了一点点其他修改
模型用的是wmt16_ende_data_bpe_clean
单独测试encoder和decoder的时候没问题,但是组合到一起的时候,每次都会在不同的FC层出问题
想请教一下
出问题的模型,我已经设置为公开,训练集为wmt16_ende_data_bpe_clean.tar.gz。没有打包进去,需要弄一下
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
是multi attention下的FC,每次都会停在不同的fc 上