コンセプト

データレイク

データレイクは非構造化データのサポートと詳細なデータ分析のための柔軟性を提供し、データパイプラインを反復的に構築できるようにします。データレイク、クラウドストレージ、および最新のデータウェアハウス分析により、パイプラインを構築するためのアーキテクチャが簡素化されます。これらのフレームワークは、ワークロードに基づいて自動的にスケーリングされるため、追加の管理を不要にします。このアプローチにより、初期総コストが削減され、高速な抽出とロード、柔軟性の向上、およびメンテナンスコストの削減が実現します。

データウェアハウス

データウェアハウスは、最適化されたストレージ、変換、および分析エンジンです。ワイドテーブルまたはスタースキーマモデルを使用した最終バージョンが適用される前に、中間テーブルのクレンジング、統合、および再構成が複数回繰り返されます。

データウェアハウスの大半は、内部の効率的なI/O、データ圧縮、およびマルチノード処理を使用して、大規模データセットに対する変換をコスト効率よく実行できる、高いスケーラビリティを備えたカラムナーデータベース上に構築されています。

ETL/ELT

Extract、Transform、Load（ETL）およびExtract、Load、Transform（ELT）は、データオーケストレーションおよびデータウェアハウスで使用されるプロセスであり、さまざまなソースからデータウェアハウスやデータレイクなどのターゲット宛先にデータを抽出、変換、ロードします。

Extract, Transform, and Load（ETL）

ETLは抽出フェーズから始まり、データベース、ファイル、API、Webサービスなど、複数の異種ソースからデータを取得します。この生データは、ターゲットシステム（通常はデータウェアハウス）にロードされる前に、クレンジングやフィルタリングなどの変換フェーズにかけられます。

Extract, Load, and Transform（ELT）

ETLと同様に、ELTは抽出フェーズから始まり、さまざまなソースからデータが抽出されます。 ELTは、抽出されたデータをデータレイクや分散ストレージなどのターゲットシステムにロードすることに重点を置いています。変換は、データがロードされた後にターゲットシステム内で行われます。

パイプライン

パイプラインは、スケジューリングと一括バッチ処理機能を使用して、ソースからターゲット宛先にデータを抽出するように設計されたフレームワークです。ソース、ステージング、およびターゲットコネクターは、パイプライン内でデータを作成、保守、抽出、ステージング、およびロードするための基盤となるアクションとトリガーを提供します。使用するコネクターはさまざまです。コスト効率に優れたクラウドストレージと最新のクラウドデータウェアハウスを組み合わせた一括アクションおよびストリーミングアクションを使用して、パイプラインの効率を高めることができます。パイプラインには、その頻度に応じて1つまたは複数のジョブを含めることができます。

ソース

Workatoの幅広いSaaSコネクターとオンプレミスエージェント（OPA）コネクターは、API、レシピ、SQL、またはOSファイル転送コマンドを使用してソースアプリケーションからデータを抽出するためのさまざまなオプションを提供します。通常、ソースはトランザクションSaaS、オンプレミスデータベース、ファイルシステム（CSV形式およびJSON形式）、およびWebログです。

ステージング

ステージングは、データレイク内で構造化やクエリ最適化を行わずにデータをダンプする、コスト効率に優れたストレージソリューションです。ステージングは、軽微な変換を伴ってデータウェアハウスに生データをロードする際の中間ステップです。ステージングテーブルは一時的または永続的なものであり、パイプラインのさまざまなステージで使用できます。必要に応じて、永続テーブルをコールドストレージにアーカイブできます。

ターゲット

ターゲットテーブルは、ソーステーブルのより精製されたバージョンが挿入、更新、またはマージされる、パイプラインのサブセット内の中間から最終までの宛先です。これらのテーブルは、ソースから発生したテーブルのクレンジング、再構成、および統合されたバージョンとして使用します。ビジネスルールを適用してデータを変換、構造化、および最適化し、さらなる分析と変換に備えます。

最終更新日:

コンセプト ​

データレイク ​

データウェアハウス ​

ETL/ELT ​

Extract, Transform, and Load（ETL） ​

Extract, Load, and Transform（ELT） ​

パイプライン ​

ソース ​

ステージング ​

ターゲット ​