# コンセプト

# データレイク

データレイクは、非構造化データのサポートと詳細なデータ分析のためのさらなる柔軟性を提供し、データパイプラインを反復的に構築することも可能にします。データレイク、クラウドストレージ、そして最新のデータウェアハウス分析は、パイプラインを構築するためのよりシンプルなアーキテクチャを提供します。これらのフレームワークは、ワークロードに基づいて自動的にスケールするため、追加の管理が不要です。このアプローチは、総初期コストを削減し、高速な抽出とロード、より多くの柔軟性、そして低いメンテナンスコストを提供します。

# データウェアハウス

データウェアハウスは、最適化されたストレージ、変換、および分析エンジンです。広いテーブルやスター・スキーマ・モデルの最終バージョンが適用される前に、中間テーブルのクリーンアップ、統合、および再構築の複数のイテレーションがあります。

データウェアハウスの大部分は、高度にスケーラブルなカラムナーデータベース上に構築されており、内部の効率的なI/O、データ圧縮、およびマルチノード処理を使用して、大規模なデータセット上でコスト効果の高い方法で変換を実行できます。

# ETL/ELT

抽出、変換、ロード(ETL)および抽出、ロード、変換(ELT)は、データオーケストレーション (opens new window)およびデータウェアハウスで使用されるプロセスであり、さまざまなソースからデータを抽出、変換、およびロードして、データウェアハウスやデータレイクなどのターゲット先に保存します。

# 抽出、変換、ロード(ETL)

ETLは抽出フェーズから始まり、データベース、ファイル、API、ウェブサービスなどの複数の異種ソースからデータを取得します。この生データは、通常データウェアハウスであるターゲットシステムにロードされる前に、クリーンアップやフィルタリングなどの変換フェーズにかけられます。

graph LR A(抽出) --> B(変換) --> C(ロード) classDef default fill:#b3e0e1,stroke:#b3e0e1,stroke-width:4px;

# 抽出、ロード、変換(ELT)

ETLと同様に、ELTはさまざまなソースからデータを抽出する抽出フェーズから始まります。ELTは、抽出されたデータをデータレイクや分散ストレージなどのターゲットシステムにロードすることに焦点を当てます。変換は、データがロードされた後、ターゲットシステム内で行われます。

graph LR A(抽出) --> B(ロード) --> C(変換) classDef default fill:#b3e0e1,stroke:#b3e0e1,stroke-width:4px;

# パイプライン

パイプラインは、スケジューリングとバルクバッチ処理機能を使用して、ソースからターゲット先にデータを抽出するように設計されたフレームワークです。ソース、ステージング、およびターゲットコネクタは、パイプライン内でデータを作成、維持、抽出、ステージング、およびロードするための基本的なアクションとトリガーを提供します。使用するコネクタはさまざまです。コスト効果の高いクラウドストレージと最新のクラウドデータウェアハウスと組み合わせたバルクおよびストリーミングアクションを使用して、パイプラインの効率を高めることができます。パイプラインは、その頻度に応じて、一つまたは複数のジョブを持つことができます。

# ソース

Workatoの幅広いSAASおよびオンプレミスエージェント(OPA)コネクタは、API、レシピ、またはSQLやOSファイル転送コマンドを使用してソースアプリケーションからデータを抽出する方法について、さまざまなオプションを提供します。一般的に、ソースはトランザクショナルSaaS、オンプレミスデータベース、ファイルシステム(CSVおよびJSON形式)、ウェブログです。

# ステージング

ステージングは、構造やクエリの最適化なしにデータレイクにデータをダンプする、コスト効果の高いストレージソリューションです。ステージングは、生データをデータウェアハウスにロードする前に、いくつかの小さな変換を伴う中間のステップです。ステージングテーブルは、一時的または永続的であり、パイプラインのさまざまな段階で使用できます。必要に応じて、永続的なテーブルをコールドストレージにアーカイブすることができます。

# ターゲット

ターゲットテーブルは、ソーステーブルのより精緻化されたバージョンが挿入、更新、またはマージされる、パイプラインのサブセット内の中間から最終目的地です。これらのテーブルを、ソースから発生したテーブルのクリーンアップされ、再構築され、統合されたバージョンとして使用します。ビジネスルールを適用して、さらなる分析と変換のためにデータを変換、構造化、および最適化します。


Last updated: 2024/12/18 21:44:08