开源推荐 Go 大数据生态迎来重量级产品 CDS

kevwan · 2020年11月26日 · 最后由 kevwan 回复于 2020年12月08日 · 2145 次阅读
本帖已被设为精华帖!

本项目地址:https://github.com/tal-tech/cds

ClickHouse 是一个用于联机分析 (OLAP) 的列式数据库管理系统 (DBMS)。它有着优异的性能,可以快速部署和运行。 不过要想使用 ClickHouse 搭建起数仓用于数据分析,一个重要的问题就是数据如何进入 ClickHouse? 我们希望数据源的变化能够自动实时地被同步到 ClickHouse,而且支持方便的动态的添加新的数据源 (新的数据库,表), 能够自动的生成对应数据源的 schema。

go-zero团队使用 go 语言围绕 ClickHouse 开发了一些方便的组件与服务。

我们得到了下面这样的数据同步设计

该数据同步系统大致由以下三部分组成

  1. DM 全量同步服务 github.com/tal-tech/cds/dm
  2. RTU 实时增量同步服务 github.com/tal-tech/cds/rtu
  3. Galaxy 网页控制台服务 github.com/tal-tech/cds/galaxy

流程如下:

  • 用户可以在网页控制台添加数据源,自动生成 DDL,添加同步任务,该任务会被发送到 etcd。
  • dm 会收到全量同步的通知,执行历史数据的全量同步工作。
  • 之后网页控制台服务会指定 connector 开启数据库 log 监听工作,数据会进入 kafka。
  • 监听 etcd 集群的 RTU 实时增量同步服务服务会发现有新的任务,RTU 自动领取任务,到 kafka 消费数据并同步至 ClickHouse。

上述服务的开发使用了 go 语言。借助于go-zero中的工具包,如 goctl 等, 我们快速实现了它。它还加入了支持自适应 mongoDB 结构变化,支持数据分表等。

我们相信这是 go 语言与 ClickHouse 探索大数据的一个不错的起点,我们希望有更多的人能够参与进来。

CDS 项目地址:https://github.com/tal-tech/cds

go-zero 项目地址:https://github.com/tal-tech/go-zero

欢迎大家 star 并加入微信社区 🤝

更多原创文章干货分享,请关注公众号
  • 加微信实战群请加微信(注明:实战群):gocnio
astaxie 将本帖设为了精华贴 11月26日 07:42
mahuaibo GoCN 每日新闻 (2020-12-04) 中提及了此贴 12月04日 06:22

难道我主题黑色,看不清图形里的文字?

sogongyu 回复

不知道为啥变黑色了

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册