Wey Gu
收录于
类别
Nebula Graph
Amundsen
2022-11-25
2023-01-09
约 11025 字
预计阅读 23 分钟
也许我们没有必要从头在 NebulaGraph 上搭建自己的数据血缘项目,本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施
Meltano
。
Meltano 是一个 just-work 的 DataOps 平台,它以一种神奇而优雅的方式将
Singer
作为 EL 和
dbt
作为 T 连接起来,它还连接到其他一些 dataInfra 实用程序,例如 Apache Superset 和 Apache Airflow 等。
至此,我们又纳入了一个成员:
✅ - GitOps:Meltano
https://gitlab.com/meltano/meltano
Singer
与 Meltano 一起将来自许多不同数据源的数据 E(提取)和 L(加载)数据目标,并使用
dbt
作为 Transform 的平台。
✅ - EL:Singer
https://singer.io/
✅ - T: dbt
https://getdbt.com/
Apache Superset
是我很喜欢的开源数据可视化项目,我准备用它来作为被治理管理的目标之一,同时,也会利用它的可视化作为元数据洞察功能的一部分。
✅ - Dashboard:Apache Superset
https://superset.apache.org/
Apache Airflow
来负责这一块。
✅ - DAG:Apache Airflow
https://airflow.apache.org/
Linux Foundation Amundsen
是我认为可以解决这个问题的最佳项目之一。
✅ - 数据发现:Linux Foundation Amundsen
https://www.amundsen.io/amundsen/
Amundsen 用图数据库为事实源(single source of truth)以加速多跳查询,Elastic Search 为全文搜索引擎,它能对所有元数据及其血缘进行了顺滑的处理还提供了优雅的 UI 和 API。
Amundsen 支持多种图数据库为后端,这里咱们用
NebulaGraph
。
✅ - 全文搜索:Elastic Search
✅ - 图数据库:NebulaGraph
现在,所有组件都齐活了,开始组装它们吧。
https://github.com/wey-gu/data-lineage-ref-solution
整个项目大家的实验中我遵循尽量干净、鼓励的原则,需要假设在一个 unix-like 的系统上运行,有互联网和 Docker-Compose。
注:参考
https://docs.docker.com/compose/install/
在继续之前安装 Docker 和 Docker Compose。
这里我们在 Ubuntu 20.04 LTS X86_64 上运行它,但在其他发行版或 Linux 版本上应该也没有问题。
https://marketplace.visualstudio.com/items?itemName=mtxr.sqltools
SQL TOOLS 快速以 GUI 方式连接到数据库(支持 MariaDB、Postgres 、Cassandra 等)