データパイプライン

データパイプラインは、ソースアプリケーションまたはファイルシステムから宛先データウェアハウスにデータを抽出、変換、ロードすることで、大規模なデータレプリケーションを自動化します。レコードを個別または小さなバッチで処理する標準レシピとは異なり、パイプラインは複数のオブジェクトを並列に同期し、大規模に動作します。これにより、パフォーマンスが向上し、メンテナンスが削減され、システム間で一貫したスキーママッピングが確保されます。

データパイプラインを使用する理由

標準レシピでは、オブジェクトごとに個別のワークフローが必要であり、レコードは小さなバッチで処理されます。このアプローチでは、セットアップ時間が増加し、同期時間が長くなり、障害復旧が複雑になります。

データパイプラインは、複数のオブジェクト同期を単一のワークフローに統合することで、レプリケーションを効率化します。パイプラインは完全な履歴同期から開始し、その後Change Data Capture（CDC）を使用した増分同期に切り替わります。これにより、挿入、更新、削除が自動的にキャプチャされます。パイプラインはスキーマの変更も検出し、更新を適用して宛先の整合性を維持します。

主な利点

データパイプラインには、次の機能があります：

自動スキーマ管理：スキーマの変更を検出し、宛先に適用します。
最適化された変更追跡：CDCを使用して、新規、変更済み、削除済みのレコードをキャプチャします。
メンテナンス作業の削減：複数のレシピを単一のパイプラインに置き換え、セットアップ、監視、エラー処理を簡素化します。
可観測性の向上：Data Orchestrationダッシュボードとパイプライン実行履歴を通じて、スキーマの変更、データ量、エラーを表示します。