doris be机器宕机后重启后,查询报Failed to get scan range, no queryable replica found in tablet的错误
以下是查询时fe的日志截图:
通过SHOW PROC '/dbs/13055/180479/partitions/180440/186440/186624';
查看tablet状态是DECOMMISSION状态
通过curl -X POST "http://xxx/api/restore_tablet?tablet_id=186624\&schema_hash=359114830" 尝试修复
返回"msg": "tablet already exists, can not restore."
应该是元数据丢失了的问题
哪位大佬帮忙看看,出现有几次了
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
看不明白
好的
不是这个问题,该问题还没有对应的issue,不过争取近期修复吧
是对应[BUG] Colocate balance falls into endless loop when all be crash #5037这个issue吗
https://github.com/apache/incubator-doris/issues/5037
想跟踪下,看什么时候修复。
目前存在一个已知bug,就是colocate表的副本在DECOMMISSION状态可能无法恢复,这个问题之后会修复。
嗯,感谢大佬的解答。之后再出现时我试试,因为刚才我再查了下竟然不会报错了,这也太神奇了,感觉像是修复或者平衡完。。。可是这也太久了。。
这很有可能是colocation 功能的一个bug。。。目前可能的一个解决方案是先将这tablet对应的table从colocation group中移除(将colocate_with 属性置空即可)。然后该tablet应该会触发副本修复逻辑。等副本状态都正常后,再重新将这个tbl加入colocation group。
大佬,上面是show proc "/cluster_balance" 的结果,怎么看是否在进行修复或者均衡任务
使用了 colocation group。version查了是相同的
两个副本都处于 decommission 状态的确是不正常的,还需要通过 show proc "/cluster_balance" 查看这个tabet是否在进行修复或者均衡任务,进一步排查
是否使用了 colocation group?
还有,可以通过 show proc 语句在partitions 那一级,看下 partition 的 visible version 和 各个 replica 的version 是否相同?
SystemDecommissioned都是false,没有true的。
用的是0.14.7版本
restore_tablet 不是干这个的,不要随便用。。。
show backends 看下 SystemDecommissioned 这一列是否有 true。有true 说明正在有节点做decomission下线处理。
还有,你用的是啥版本?