我们是一家刚成立的创业公司,目前正在做大数据平台的选型。
hadoop平台体系是目前用的最多最稳定的体系,但是由于当前CDH 开始收费了,如果直接用开源版本,组件比较多,维护成本比较高。
作为一家新成立的公司,没有历史包袱,我们选择了 Doris + flink 的方案,组件少维护成本低,Doris 号称PB级的数据数据处理的能力,应该可以够我们这种初创公司使用的了。
1.实时部分 flink + doris 没有什么问题 ,flink 处理的好的数据doris 对外提供查询 算是比较成熟的方案。
2.关于关于离线部分 可以用两种方案
1) 直接使用doris 做离线处理的引擎。存在的问题是 一些明细数据查询和插入的时候Doris 不太适合,容易挂掉。
2)使用flinkSQL 做离线处理的引擎(我们当前选择的方案)
目前遇到的问题是 数据量大的时读取读取时间长,并且不稳定,容易挂掉。还有 经过复杂处理的数据插回到doris 时 报 row 类型转换错误。
集群规模:3台 32核 128G
软件版本: ubuntu 20、doris 0.14.13-no-avx2 (fe 1台 + be 3台(一台是混部的 )、flink 13.2(3台的standalone 集群)
查询数据规模: 6亿条,60G
在flink sql 执行单表 count(*) 要 40多分钟,多数情况下 时报错执行不出来。
以上是我们遇到的问题。各位大佬 对我们架构有什么好的建议。还有对我们遇到的具体问题 flink sql 读取doris 表大量数据的 有什么优化的方案。
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
有oom 也有查询超时的问题 。
用Doris 做离线的ETL 是需要把一些参数设置大一些吗?
一些明细数据查询和插入的时候Doris 不太适合,容易挂掉。
这个问题是因为oom么?