データパイプライン
データパイプラインは、ソースアプリケーションまたはファイルシステムから宛先データウェアハウスにデータを抽出、変換、ロードすることで、大規模なデータレプリケーションを自動化します。 レコードを個別または小さなバッチで処理する標準レシピとは異なり、パイプラインは複数のオブジェクトを並列に同期し、大規模に動作します。 これにより、パフォーマンスが向上し、メンテナンスが削減され、システム間で一貫したスキーママッピングが確保されます。
データパイプラインを使用する理由
標準レシピでは、オブジェクトごとに個別のワークフローが必要であり、レコードは小さなバッチで処理されます。 このアプローチでは、セットアップ時間が増加し、同期時間が長くなり、障害復旧が複雑になります。
データパイプラインは、複数のオブジェクト同期を単一のワークフローに統合することで、レプリケーションを効率化します。 パイプラインは完全な履歴同期から開始し、その後Change Data Capture(CDC)を使用した増分同期に切り替わります。 これにより、挿入、更新、削除が自動的にキャプチャされます。 パイプラインはスキーマの変更も検出し、更新を適用して宛先の整合性を維持します。
主な利点
データパイプラインには、次の機能があります:
- 自動スキーマ管理:スキーマの変更を検出し、宛先に適用します。
- 最適化された変更追跡:CDCを使用して、新規、変更済み、削除済みのレコードをキャプチャします。
- メンテナンス作業の削減:複数のレシピを単一のパイプラインに置き換え、セットアップ、監視、エラー処理を簡素化します。
- 可観測性の向上:Data Orchestrationダッシュボードとパイプライン実行履歴を通じて、スキーマの変更、データ量、エラーを表示します。
データパイプラインの仕組み
データパイプラインは、抽出、複製、ロード、同期のプロセスに従ってデータ移動を自動化します:
- 抽出:トリガーは、Salesforceなどのソースアプリケーションからデータを取得します。
- 複製:パイプラインはスキーマを複製し、宛先との互換性を確保します。
- ロード:ロードアクションは、Snowflakeなどの宛先にレコードを一括転送します。
パイプラインは、スケジュールされた間隔でデータを同期します。 選択されたすべてのオブジェクトに対して、抽出、複製、ロードのプロセスを実行します。 トリガーはソースからデータを抽出し、ロードアクションはスキーマを複製してレコードを宛先に転送します。
データパイプラインを始める
アプリケーション間でデータを同期するデータパイプラインレシピを設定するには、次のガイドを参照してください:
- ソースと宛先への接続:ソースアプリケーションと宛先データウェアハウスへのコネクションを確立します。
- データパイプラインの設定:パイプラインをセットアップし、ソースオブジェクトを定義して、同期設定を選択します。
- パイプラインの監視と管理:同期の進行状況を追跡し、エラーをトラブルシューティングします。
Last updated: