コンセプト

データレイク

データレイクは、非構造化データのサポートと詳細なデータ分析のためのさらなる柔軟性を提供し、データパイプラインを反復的に構築することも可能にします。データレイク、クラウドストレージ、そして最新のデータウェアハウス分析は、パイプラインを構築するためのよりシンプルなアーキテクチャを提供します。これらのフレームワークは、ワークロードに基づいて自動的にスケールするため、追加の管理が不要です。このアプローチは、総初期コストを削減し、高速な抽出とロード、より多くの柔軟性、そして低いメンテナンスコストを提供します。

データウェアハウス

データウェアハウスは、最適化されたストレージ、変換、および分析エンジンです。広いテーブルやスター・スキーマ・モデルの最終バージョンが適用される前に、中間テーブルのクリーンアップ、統合、および再構築の複数のイテレーションがあります。

データウェアハウスの大部分は、高度にスケーラブルなカラムナーデータベース上に構築されており、内部の効率的なI/O、データ圧縮、およびマルチノード処理を使用して、大規模なデータセット上でコスト効果の高い方法で変換を実行できます。

ETL/ELT

抽出、変換、ロード（ETL）および抽出、ロード、変換（ELT）は、データオーケストレーションおよびデータウェアハウスで使用されるプロセスであり、さまざまなソースからデータを抽出、変換、およびロードして、データウェアハウスやデータレイクなどのターゲット先に保存します。

抽出、変換、ロード（ETL）

ETLは抽出フェーズから始まり、データベース、ファイル、API、ウェブサービスなどの複数の異種ソースからデータを取得します。この生データは、通常データウェアハウスであるターゲットシステムにロードされる前に、クリーンアップやフィルタリングなどの変換フェーズにかけられます。

抽出、ロード、変換（ELT）

ETLと同様に、ELTはさまざまなソースからデータを抽出する抽出フェーズから始まります。ELTは、抽出されたデータをデータレイクや分散ストレージなどのターゲットシステムにロードすることに焦点を当てます。変換は、データがロードされた後、ターゲットシステム内で行われます。

パイプライン

パイプラインは、スケジューリングとバルクバッチ処理機能を使用して、ソースからターゲット先にデータを抽出するように設計されたフレームワークです。ソース、ステージング、およびターゲットコネクタは、パイプライン内でデータを作成、維持、抽出、ステージング、およびロードするための基本的なアクションとトリガーを提供します。使用するコネクタはさまざまです。コスト効果の高いクラウドストレージと最新のクラウドデータウェアハウスと組み合わせたバルクおよびストリーミングアクションを使用して、パイプラインの効率を高めることができます。パイプラインは、その頻度に応じて、一つまたは複数のジョブを持つことができます。

ソース

Workatoの幅広いSAASおよびオンプレミスエージェント（OPA）コネクタは、API、レシピ、またはSQLやOSファイル転送コマンドを使用してソースアプリケーションからデータを抽出する方法について、さまざまなオプションを提供します。一般的に、ソースはトランザクショナルSaaS、オンプレミスデータベース、ファイルシステム（CSVおよびJSON形式）、ウェブログです。

ステージング

ステージングは、構造やクエリの最適化なしにデータレイクにデータをダンプする、コスト効果の高いストレージソリューションです。ステージングは、生データをデータウェアハウスにロードする前に、いくつかの小さな変換を伴う中間のステップです。ステージングテーブルは、一時的または永続的であり、パイプラインのさまざまな段階で使用できます。必要に応じて、永続的なテーブルをコールドストレージにアーカイブすることができます。

ターゲット

ターゲットテーブルは、ソーステーブルのより精緻化されたバージョンが挿入、更新、またはマージされる、パイプラインのサブセット内の中間から最終目的地です。これらのテーブルを、ソースから発生したテーブルのクリーンアップされ、再構築され、統合されたバージョンとして使用します。ビジネスルールを適用して、さらなる分析と変換のためにデータを変換、構造化、および最適化します。

Last updated:

コンセプト ​

データレイク ​

データウェアハウス ​

ETL/ELT ​

抽出、変換、ロード（ETL） ​

抽出、ロード、変換（ELT） ​

パイプライン ​

ソース ​

ステージング ​

ターゲット ​