ELTパイプラインのコンセプト
次のコンセプトは、Snowflake向けELTパイプラインアクセラレーターの基盤となるロジックを構成します。
ELT
このアクセラレーターは、ETL(抽出、変換、ロード)ではなく、ELT(抽出、ロード、変換)アプローチを採用しています。 ELTでは、Workatoがソースアプリケーションからデータを抽出し、データレイクまたはウェアハウスにロードしてから、データに必要な変換を実行します。 初期フェーズから固定的な抽出と変換(ET)のボトルネックを取り除くことで、このアクセラレーターは、データレイクまたはウェアハウスに保存するためにデータをロードする前に複雑なロジックを必要とせず、クエリおよび分析にデータを利用できるようにします。
データレイクは非構造化データをサポートし、詳細なデータ分析により高い柔軟性を提供します。 また、ユーザーはデータパイプラインを反復的に構築し続けることができます。 データレイク、クラウドストレージ、および最新のデータウェアハウス分析により、パイプラインを構築するためのアーキテクチャが簡素化されます。 これらのフレームワークは、ワークロードに基づいて自動的にスケーリングされるため、追加の管理を不要にします。 このアプローチにより、初期総コストが削減され、高速な抽出とロード、より高い柔軟性、低い保守コストが実現します。
パイプライン
ELTのコンテキストでは、パイプラインとは、スケジューリングおよびバルクバッチ処理機能を使用して、ソースからターゲットへデータを抽出するように設計されたフレームワークです。 ソース、ステージング、およびターゲットコネクターは、パイプライン内でデータを作成、保守、抽出、ステージング、およびロードするための基盤となるアクションとトリガーを提供します。 使用するコネクターはさまざまです。 コスト効率に優れたクラウドストレージと最新のクラウドデータウェアハウスを組み合わせた一括アクションおよびストリーミングアクションを使用して、パイプラインの効率を高めることができます。 パイプラインには、その頻度に応じて1つまたは複数のジョブを含めることができます。
ソース
Workatoの幅広いSaaSコネクターとオンプレミスエージェント(OPA)コネクターは、API、レシピ、SQL、またはOSファイル転送コマンドを使用してソースアプリケーションからデータを抽出するためのさまざまなオプションを提供します。 通常、ソースはトランザクションSaaS、オンプレミスデータベース、ファイルシステム(CSV形式およびJSON形式)、およびWebログです。
各ソースシステムには、それぞれ固有のニュアンスと課題があります。 Salesforceを含む一部のソースコネクターは、このアクセラレーターで使用されるバルクアクションを提供します。
ステージング
ステージングは、データレイク内で構造化やクエリ最適化を行わずにデータをダンプする、コスト効率に優れたストレージソリューションです。 ステージングは、軽微な変換を伴ってデータウェアハウスに生データをロードする際の中間ステップです。 ステージングテーブルは一時的または永続的なものであり、パイプラインのさまざまなステージで使用できます。 必要に応じて、永続テーブルをコールドストレージにアーカイブできます。 このアクセラレーターは、生データのステージング領域としてS3とSnowflakeの内部ファイルシステムを使用します。
ターゲット
ターゲットテーブルは、ソーステーブルのより精製されたバージョンが挿入、更新、またはマージされる、パイプラインのサブセット内の中間から最終までの宛先です。 これらのテーブルは、ソースから発生したテーブルのクレンジング、再構成、および統合されたバージョンとして使用します。 ビジネスルールを適用してデータを変換、構造化、および最適化し、さらなる分析と変換に備えます。
データウェアハウス
データウェアハウスは、最適化されたストレージ、変換、および分析エンジンです。 ワイドテーブルまたはスタースキーマモデルを使用した最終バージョンが適用される前に、中間テーブルのクレンジング、統合、再構築が複数回反復されます。
データウェアハウスの大半は、内部の効率的なI/O、データ圧縮、およびマルチノード処理を使用して、大規模データセットに対する変換をコスト効率よく実行できる、高いスケーラビリティを備えたカラムナーデータベース上に構築されています。 Workatoは、このアクセラレーターのデータウェアハウスとしてSnowflakeを使用します。
Last updated: