データパイプライン

このページは機械翻訳により提供されています。翻訳内容と英語版に相違がある場合は、英語版が優先されます。

データパイプラインは、ソースアプリケーションまたはファイルシステムから宛先データウェアハウスにデータを抽出、変換、ロードすることで、大規模なデータレプリケーションを自動化します。 レコードを個別または小さなバッチで処理する標準レシピとは異なり、パイプラインは複数のオブジェクトを並列に同期し、大規模に動作します。 これにより、パフォーマンスが向上し、メンテナンスが削減され、システム間で一貫したスキーママッピングが確保されます。

データパイプラインを使用する理由

標準レシピでは、オブジェクトごとに個別のワークフローが必要であり、レコードは小さなバッチで処理されます。 このアプローチでは、セットアップ時間が増加し、同期時間が長くなり、障害復旧が複雑になります。

データパイプラインは、複数のオブジェクト同期を単一のワークフローに統合することで、レプリケーションを効率化します。 パイプラインは完全な履歴同期から開始し、その後Change Data Capture(CDC)を使用した増分同期に切り替わります。 これにより、挿入、更新、削除が自動的にキャプチャされます。 パイプラインはスキーマの変更も検出し、更新を適用して宛先の整合性を維持します。

主な利点

データパイプラインには、次の機能があります:

  • 自動スキーマ管理:スキーマの変更を検出し、宛先に適用します。
  • 最適化された変更追跡:CDCを使用して、新規、変更済み、削除済みのレコードをキャプチャします。
  • メンテナンス作業の削減:複数のレシピを単一のパイプラインに置き換え、セットアップ、監視、エラー処理を簡素化します。
  • 可観測性の向上Data Orchestrationダッシュボードとパイプライン実行履歴を通じて、スキーマの変更、データ量、エラーを表示します。

データパイプラインの仕組み

データパイプラインは、抽出、複製、ロード、同期のプロセスに従ってデータ移動を自動化します:

  • 抽出:トリガーは、Salesforceなどのソースアプリケーションからデータを取得します。
  • 複製:パイプラインはスキーマを複製し、宛先との互換性を確保します。
  • ロード:ロードアクションは、Snowflakeなどの宛先にレコードを一括転送します。

パイプラインは、スケジュールされた間隔でデータを同期します。 選択されたすべてのオブジェクトに対して、抽出、複製、ロードのプロセスを実行します。 トリガーはソースからデータを抽出し、ロードアクションはスキーマを複製してレコードを宛先に転送します。

データパイプラインを始める

アプリケーション間でデータを同期するデータパイプラインレシピを設定するには、次のガイドを参照してください:

Last updated: