W
训练一轮后任务失败status:[-1] meets grpc error, error_code:4 error_message:Deadline Exceeded
webary 发布于2019-12-23 11:42 浏览:532 回复:4
0
收藏
最后编辑于2020-07-28

多分类(68类)简单全连接分类任务训练一轮后任务失败,失败提示信息:
F1222 19:03:46.287559 19021 grpc_client.cc:414] SendRPC name:[softmax_b@GRAD.trainer_0], ep:[10.90.145.38:62004], status:[-1] meets grpc error, error_code:4 error_message:Deadline Exceeded error_details:
*** Check failure stack trace: ***
@ 0x7fca1817efbd google::LogMessage::Fail()
@ 0x7fca18182a6c google::LogMessage::SendToLog()
@ 0x7fca1817eae3 google::LogMessage::Flush()
@ 0x7fca18183f7e google::LogMessageFatal::~LogMessageFatal()
@ 0x7fca18ee14fe paddle::operators::distributed::GRPCClient::Proceed()
@ 0x7fca255b38a0 execute_native_thread_routine
@ 0x7fca988dd1c3 start_thread
@ 0x7fca97f0512d __clone
@ (nil) (unknown)

具体是什么原因导致的错误?应该如何修正来让任务正常训练下去?

收藏
点赞
0
个赞
共4条回复 最后由JAX52回复于2020-07-28 10:21
#5JAX52回复于2020-07-28 10:21:08

我是paddle1.8版本的,也出现了类似问题。请问如何解决呀!谢谢!

0
W
#4webary回复于2019-12-25 15:52:30

感谢回复。
目前1单机运行没问题;
2.切换后测试目前正常跑到第二轮了
3.没必要做了(1成功确定代码没问题)
4.后期再尝试

0
M
#3MrChengmo回复于2019-12-23 16:45:57

先尝试一下以下几个解决方法:1、确保相同代码,单机运行没有问题;2、切换到1.6.2版本,排除已修复的bug的因素;3、先注释掉reader reset后的测试的代码;4、换用fleet api,排除transpiler使用不当的问题。

0
W
#2webary回复于2019-12-23 11:47:58

多机CPU,MPI集群训练;
paddle fluid v1.5.2;
已训练完一轮train,测试了一轮test

0
TOP
切换版块