DataHub

summary:

DataHubとは,大規模な組織におけるデータ資産のカタログ化とガバナンスを目的としたオープンソースのメタデータ管理プラットフォームである.

データの発見性,系統管理,品質管理,アクセス管理を一元的に実現し,様々なデータソースを横断してメタデータを収集・統合し,データドリブンな意思決定を支援するための基盤となるものである.

DataHubとは,大規模な組織におけるデータ資産のカタログ化とガバナンスを目的としたオープンソースのメタデータ管理プラットフォームである.データの発見性,系統管理,品質管理,アクセス管理を一元的に実現し,様々なデータソースを横断してメタデータを収集・統合し,データドリブンな意思決定を支援するための基盤となるものである.

DataHubはLinkedInが開発の起点であり,もともとは同社の内部システムとしてWhereHowsという名前で運用されていた.2018年頃により拡張性と汎用性を持たせたプラットフォームとして再設計され,DataHubとしてオープンソース化された.これにより外部の企業やコミュニティからの貢献を受け入れつつ,多様なデータ環境に対応できる柔軟なメタデータ管理基盤として発展している.DataHubはApache KafkaやElasticsearch,GraphQL,Reactなどのモダン技術スタックを組み合わせて構築されており,リアルタイムに近いメタデータの更新と強力な検索・可視化機能を提供する.データ系統[データリネージ]やスキーマ管理,ユーザーロールに基づくアクセス制御を備え,エンタープライズのデータガバナンスに必要な要件を広範にカバーしている.さらに,多様なデータソースやBIツールとの統合プラグインを持ち,API経由での拡張性にも優れている.

DataHubは主にメタデータ管理とデータガバナンスに特化したプラットフォームであり,組織内のデータ資産の発見性,系統管理,アクセス制御などを統合的に管理するための仕組みである.一方,Trinoは高速かつ分散処理可能なSQLクエリエンジンであり,異種データソースを透過的に横断してリアルタイムにクエリを実行し,分析やレポーティングを可能にするための実行基盤である.

DataHubはKafkaやElasticsearchなどを用いてメタデータの収集・検索・可視化を行う一方,Trinoは独自のコネクタを通じて様々なデータソースに接続し,高速にSQLクエリを分散処理する.両者は連携させることで相互補完的な機能を発揮する.例えば,DataHubが管理する豊富なメタデータやデータ系統情報をTrinoのクエリプランニングやアクセス制御に活用することで,より安全かつ効率的なデータ分析環境を構築できる.また,DataHubのガバナンス情報を参照することで,Trino上のデータ利用に対してポリシー準拠の管理や監査が実現可能となる.

したがって,DataHubはデータ資産の「カタログ化と管理」という領域に強みを持ち,Trinoはそのカタログ化されたデータを実際に分析・処理する「実行エンジン」としての役割を担う.この両者を組み合わせることで,組織は統制されたガバナンスのもとで多様なデータを横断的に活用できる強力なデータプラットフォームを構築できる.

参照

  1. DataHub: The Data Discovery Platform for the Modern Data Stack

Mathematics is the language with which God has written the universe.





















DataHub Trino Arrow Flight POSIXモデル Netmap TDM