コンセプト
データレイク
データレイクは非構造化データのサポートと詳細なデータ分析のための柔軟性を提供し、データパイプラインを反復的に構築できるようにします。 データレイク、クラウドストレージ、および最新のデータウェアハウス分析により、パイプラインを構築するためのアーキテクチャが簡素化されます。 これらのフレームワークは、ワークロードに基づいて自動的にスケーリングされるため、追加の管理を不要にします。 このアプローチにより、初期総コストが削減され、高速な抽出とロード、柔軟性の向上、およびメンテナンスコストの削減が実現します。
データウェアハウス
データウェアハウスは、最適化されたストレージ、変換、および分析エンジンです。 ワイドテーブルまたはスタースキーマモデルを使用した最終バージョンが適用される前に、中間テーブルのクレンジング、統合、および再構成が複数回繰り返されます。
データウェアハウスの大半は、内部の効率的なI/O、データ圧縮、およびマルチノード処理を使用して、大規模データセットに対する変換をコスト効率よく実行できる、高いスケーラビリティを備えたカラムナーデータベース上に構築されています。
ETL/ELT
Extract、Transform、Load(ETL)およびExtract、Load、Transform(ELT)は、データオーケストレーションおよびデータウェアハウスで使用されるプロセスであり、さまざまなソースからデータウェアハウスやデータレイクなどのターゲット宛先にデータを抽出、変換、ロードします。
Extract, Transform, and Load(ETL)
ETLは抽出フェーズから始まり、データベース、ファイル、API、Webサービスなど、複数の異種ソースからデータを取得します。 この生データは、ターゲットシステム(通常はデータウェアハウス)にロードされる前に、クレンジングやフィルタリングなどの変換フェーズにかけられます。
Extract, Load, and Transform(ELT)
ETLと同様に、ELTは抽出フェーズから始まり、さまざまなソースからデータが抽出されます。 ELTは、抽出されたデータをデータレイクや分散ストレージなどのターゲットシステムにロードすることに重点を置いています。 変換は、データがロードされた後にターゲットシステム内で行われます。
パイプライン
パイプラインは、スケジューリングと一括バッチ処理機能を使用して、ソースからターゲット宛先にデータを抽出するように設計されたフレームワークです。 ソース、ステージング、およびターゲットコネクターは、パイプライン内でデータを作成、保守、抽出、ステージング、およびロードするための基盤となるアクションとトリガーを提供します。 使用するコネクターはさまざまです。 コスト効率に優れたクラウドストレージと最新のクラウドデータウェアハウスを組み合わせた一括アクションおよびストリーミングアクションを使用して、パイプラインの効率を高めることができます。 パイプラインには、その頻度に応じて1つまたは複数のジョブを含めることができます。
ソース
Workatoの幅広いSaaSコネクターとオンプレミスエージェント(OPA)コネクターは、API、レシピ、SQL、またはOSファイル転送コマンドを使用してソースアプリケーションからデータを抽出するためのさまざまなオプションを提供します。 通常、ソースはトランザクションSaaS、オンプレミスデータベース、ファイルシステム(CSV形式およびJSON形式)、およびWebログです。
ステージング
ステージングは、データレイク内で構造化やクエリ最適化を行わずにデータをダンプする、コスト効率に優れたストレージソリューションです。 ステージングは、軽微な変換を伴ってデータウェアハウスに生データをロードする際の中間ステップです。 ステージングテーブルは一時的または永続的なものであり、パイプラインのさまざまなステージで使用できます。 必要に応じて、永続テーブルをコールドストレージにアーカイブできます。
ターゲット
ターゲットテーブルは、ソーステーブルのより精製されたバージョンが挿入、更新、またはマージされる、パイプラインのサブセット内の中間から最終までの宛先です。 これらのテーブルは、ソースから発生したテーブルのクレンジング、再構成、および統合されたバージョンとして使用します。 ビジネスルールを適用してデータを変換、構造化、および最適化し、さらなる分析と変換に備えます。
Last updated: