# コンセプト
# データレイク
データレイクは、非構造化データのサポートと詳細なデータ分析のためのさらなる柔軟性を提供し、データパイプラインを反復的に構築することも可能にします。データレイク、クラウドストレージ、そして最新のデータウェアハウス分析は、パイプラインを構築するためのよりシンプルなアーキテクチャを提供します。これらのフレームワークは、ワークロードに基づいて自動的にスケールするため、追加の管理が不要です。このアプローチは、総初期コストを削減し、高速な抽出とロード、より多くの柔軟性、そして低いメンテナンスコストを提供します。
# データウェアハウス
データウェアハウスは、最適化されたストレージ、変換、および分析エンジンです。広いテーブルやスター・スキーマ・モデルの最終バージョンが適用される前に、中間テーブルのクリーンアップ、統合、および再構築の複数のイテレーションがあります。
データウェアハウスの大部分は、高度にスケーラブルなカラムナーデータベース上に構築されており、内部の効率的なI/O、データ圧縮、およびマルチノード処理を使用して、大規模なデータセット上でコスト効果の高い方法で変換を実行できます。
# ETL/ELT
抽出、変換、ロード(ETL)および抽出、ロード、変換(ELT)は、データオーケストレーション (opens new window)およびデータウェアハウスで使用されるプロセスであり、さまざまなソースからデータを抽出、変換、およびロードして、データウェアハウスやデータレイクなどのターゲット先に保存します。
# 抽出、変換、ロード(ETL)
ETLは抽出フェーズから始まり、データベース、ファイル、API、ウェブサービスなどの複数の異種ソースからデータを取得します。この生データは、通常データウェアハウスであるターゲットシステムにロードされる前に、クリーンアップやフィルタリングなどの変換フェーズにかけられます。
# 抽出、ロード、変換(ELT)
ETLと同様に、ELTはさまざまなソースからデータを抽出する抽出フェーズから始まります。ELTは、抽出されたデータをデータレイクや分散ストレージなどのターゲットシステムにロードすることに焦点を当てます。変換は、データがロードされた後、ターゲットシステム内で行われます。
# パイプライン
パイプラインは、スケジューリングとバルクバッチ処理機能を使用して、ソースからターゲット先にデータを抽出するように設計されたフレームワークです。ソース、ステージング、およびターゲットコネクタは、パイプライン内でデータを作成、維持、抽出、ステージング、およびロードするための基本的なアクションとトリガーを提供します。使用するコネクタはさまざまです。コスト効果の高いクラウドストレージと最新のクラウドデータウェアハウスと組み合わせたバルクおよびストリーミングアクションを使用して、パイプラインの効率を高めることができます。パイプラインは、その頻度に応じて、一つまたは複数のジョブを持つことができます。
# ソース
Workatoの幅広いSAASおよびオンプレミスエージェント(OPA)コネクタは、API、レシピ、またはSQLやOSファイル転送コマンドを使用してソースアプリケーションからデータを抽出する方法について、さまざまなオプションを提供します。一般的に、ソースはトランザクショナルSaaS、オンプレミスデータベース、ファイルシステム(CSVおよびJSON形式)、ウェブログです。
# ステージング
ステージングは、構造やクエリの最適化なしにデータレイクにデータをダンプする、コスト効果の高いストレージソリューションです。ステージングは、生データをデータウェアハウスにロードする前に、いくつかの小さな変換を伴う中間のステップです。ステージングテーブルは、一時的または永続的であり、パイプラインのさまざまな段階で使用できます。必要に応じて、永続的なテーブルをコールドストレージにアーカイブすることができます。
# ターゲット
ターゲットテーブルは、ソーステーブルのより精緻化されたバージョンが挿入、更新、またはマージされる、パイプラインのサブセット内の中間から最終目的地です。これらのテーブルを、ソースから発生したテーブルのクリーンアップされ、再構築され、統合されたバージョンとして使用します。ビジネスルールを適用して、さらなる分析と変換のためにデータを変換、構造化、および最適化します。
Last updated: 2024/12/18 21:44:08