Doris 使用Flink 做离线 ETL
海明威9060 发布于2021-09 浏览:3866 回复:2
0
收藏

我们是一家刚成立的创业公司,目前正在做大数据平台的选型。

hadoop平台体系是目前用的最多最稳定的体系,但是由于当前CDH 开始收费了,如果直接用开源版本,组件比较多,维护成本比较高。

作为一家新成立的公司,没有历史包袱,我们选择了 Doris + flink 的方案,组件少维护成本低,Doris 号称PB级的数据数据处理的能力,应该可以够我们这种初创公司使用的了。

1.实时部分 flink + doris 没有什么问题 ,flink 处理的好的数据doris 对外提供查询 算是比较成熟的方案。

2.关于关于离线部分 可以用两种方案 

1) 直接使用doris 做离线处理的引擎。存在的问题是 一些明细数据查询和插入的时候Doris 不太适合,容易挂掉。

2)使用flinkSQL 做离线处理的引擎(我们当前选择的方案)

    目前遇到的问题是  数据量大的时读取读取时间长,并且不稳定,容易挂掉。还有 经过复杂处理的数据插回到doris 时 报 row 类型转换错误。

 

集群规模:3台 32核 128G

软件版本: ubuntu 20、doris 0.14.13-no-avx2 (fe 1台 + be 3台(一台是混部的 )、flink 13.2(3台的standalone 集群)

查询数据规模: 6亿条,60G

在flink sql 执行单表 count(*)  要 40多分钟,多数情况下 时报错执行不出来。

 

以上是我们遇到的问题。各位大佬 对我们架构有什么好的建议。还有对我们遇到的具体问题 flink sql 读取doris 表大量数据的 有什么优化的方案。

 

 

收藏
点赞
0
个赞
共2条回复 最后由海明威9060回复于2021-09
#3海明威9060回复于2021-09

有oom 也有查询超时的问题 。

用Doris 做离线的ETL 是需要把一些参数设置大一些吗?

0
#2IamStrangers回复于2021-09

一些明细数据查询和插入的时候Doris 不太适合,容易挂掉。

这个问题是因为oom么?

0
快速回复
TOP
切换版块