データパイプラインの主要概念

このページは機械翻訳により提供されています。翻訳内容と英語版に相違がある場合は、英語版が優先されます。

Workatoデータパイプラインは、正確で最新のデータセットを維持するために、データを抽出、複製、同期します。 パイプラインは、ソースアプリケーションを宛先データウェアハウスに接続し、データを一括で移動して、スキーマの整合性を維持します。 次のセクションでは、データパイプラインがデータを処理および管理する方法を説明する主要概念を定義します。

ソースアプリケーションと宛先

データパイプラインは、Salesforceなどのソースアプリケーションからデータを抽出し、Snowflakeなどの宛先に同期します。 1つのパイプラインは、ソースアプリケーション内の複数のオブジェクトまたはフィールドからデータを取得し、そのデータを指定された宛先にレプリケートします。

オブジェクト同期

同期とは、パイプラインがソースからデータを抽出し、宛先にロードする全体的なプロセスを指します。 各同期は複数のオブジェクトを並列に処理し、次のいずれかのタイプを使用します:

  • Full sync

  • ソースから利用可能なすべてのレコードを抽出し、宛先にロードします。 これにより、宛先テーブルには同期時点のソースデータの完全なスナップショットが含まれます。

  • Incremental sync

  • スケジュール設定された各同期は、前回の正常な同期以降に新規作成、更新、または削除されたレコードのみを抽出します。

  • Re-sync

  • 特定のオブジェクトに対する手動の1回限りの同期。 Re-syncは、そのオブジェクトの現在のデータをただちに抽出してロードします。 このタイプは、エラー、スキップされた同期、またはデータの変更により、1つのオブジェクトのみを再度同期する必要がある場合に便利です。

データパイプラインは、完全な履歴同期から開始され、ソースのすべてのデータ、または指定した日付以降のデータを転送します。 初回同期が完了すると、パイプラインはIncremental syncに切り替わり、新規作成、更新、または削除されたレコードをキャプチャします。 Re-syncを使用すると、通常のスケジュール外で特定のオブジェクトを再処理できます。

詳細については、Syncタイプと実行ガイドを参照してください。

同期頻度

データパイプラインはスケジュール設定された頻度で実行され、ソースシステムと宛先システムの同期を維持します。 デフォルトの頻度は15分です。 5分間隔はリクエストに応じて利用でき、顧客ごとに有効にできます。

スケジュール設定された各実行は、選択したすべてのオブジェクトに対してIncremental syncを実行し、前回の正常な同期以降の変更のみをキャプチャします。 運用要件とシステム容量に合ったスケジュールを選択します。

パイプライン実行

各データパイプライン同期は複数の実行で構成され、選択したオブジェクトごとに1つの実行があります。 同期はすべてのオブジェクトに対するアクティビティ全体を表し、実行はその同期内の単一オブジェクトの実行状況を追跡します。

パイプラインはパフォーマンスを向上させるために実行を並列で実行します。 各実行はソースからデータを抽出し、宛先にロードします。 実行レベルのデータはRunsタブに表示され、パイプラインの実行を監視するのに役立ちます。 詳細については、オブジェクト実行セクションを参照してください。

スキーマレプリケーションとスキーマドリフト管理

スキーマドリフトとは、ソースデータに変更が発生したときに生じる、ソースと宛先の間の不整合を指します。 これらの変更には、フィールドの追加や削除、フィールドタイプの変更、またはその他の構造的な更新が含まれる場合があります。 管理されていないスキーマドリフトは、変換エラー、データ損失、不正確な分析の原因となる可能性があります。

Workatoパイプラインは同期中にスキーマドリフトを検出し、パイプライン設定に基づいてスキーマ変更を適用します。 スキーマ更新を自動的に適用するにはAuto-sync new fieldsオプションを使用し、変更を手動で確認および管理するにはBlock new fieldsを使用します。 この動作は、パイプライン設定中に設定できます。

データマスキング

データマスキングは、同期中に値を変換することで機密情報の保護に役立ちます。 パイプラインは、フィールドレベルで2つのマスキングオプションを提供します:

  • Replicate as is:ソースの元のフィールド値を保持し、宛先に同期します。
  • Hash:宛先に書き込む前にフィールド値をハッシュ化して、機密データを判読しにくくします。 このオプションにより、チームはコンテンツを保護しながら構造をレプリケートできます。

フィールドレベルのマスキングは、オブジェクト列ごとに適用されます。 マスキング動作は、パイプライン設定中にフィールドを選択してマッピングするときに設定できます。

Last updated: