doris是我使用的数据的数据库中,真的是很优秀的数据库,对比使用的greenplum, clickhouse 在各方面都很优秀,特别是查询方面性能优异, 而且生态支持多,es spark mysql 各种引擎我觉得对未来发展具备重要潜力, 但是关于是否适合做实时数仓的问题有还是有几点疑问:
实时数仓最大的问题就是实时入库的问题:
1、insert select 和 borker 我觉得都是针对离线的方案
2、routine load + kafka +(canal,maxwell) 这种方案虽然可以做到微批的方案,但是是一个任务持有一份完整的复制,这对性能影响也很大,一般的公司方也不可能对上万张表建立上万个topic, 所以认为这不是一个好的方案
3、我个人觉得最大的问题,是compacation : 若实时入库的任务多了, 系统太占资源,如果超多系统资源比较多的时候,不管设置什么参数,整个compacation 都没有用,系统一启动,直接将内存使用完, 导致系统瘫痪, 而且没有其他办法修复
4、flink 是通过stream load 的方式 我个人觉得也不是很适合,也需要做微批提交, 任务多了也会有compaction问题
基于以上实际使用的情况: 我自己认为不适合做实时数仓
所以想请问下,1、是否有比较完整的实时同步方案? 2、对于数据合并到资源达到瓶颈,是否可以通过参数控制呢? 3、关于数据合并是否有后续的优化计划呢?
请登录后评论
TOP
切换版块
wx 公众号
实时导入方案可以参考业界百度,小米,美团,快手等的实践分享,ApacheDoris 搜索历史消息即可。
关于 compaction 问题,可以参考一下最近 ApacheDoris 的 Doris最佳实践 compaction 调优系列文章,里面有原理解析,详细的参数介绍和调优实践。
后续的计划可以参考 ApacheDoris 发布的 RoadMap 2021.
如果有好的想法欢迎提出,一起共商大事哇~