データパイプラインの主要概念
Workatoデータパイプラインは、正確で最新のデータセットを維持するために、データを抽出、複製、同期します。 パイプラインは、ソースアプリケーションを宛先データウェアハウスに接続し、データを一括で移動して、スキーマの整合性を維持します。 次のセクションでは、データパイプラインがデータを処理および管理する方法を説明する主要概念を定義します。
ソースアプリケーションと宛先
データパイプラインは、Salesforceなどのソースアプリケーションからデータを抽出し、Snowflakeなどの宛先に同期します。 1つのパイプラインは、ソースアプリケーション内の複数のオブジェクトまたはフィールドからデータを取得し、そのデータを指定された宛先にレプリケートします。
オブジェクト同期
同期とは、パイプラインがソースからデータを抽出し、宛先にロードする全体的なプロセスを指します。 各同期は複数のオブジェクトを並列に処理し、次のいずれかのタイプを使用します:
Full sync
ソースから利用可能なすべてのレコードを抽出し、宛先にロードします。 これにより、宛先テーブルには同期時点のソースデータの完全なスナップショットが含まれます。
Incremental sync
スケジュール設定された各同期は、前回の正常な同期以降に新規作成、更新、または削除されたレコードのみを抽出します。
Re-sync
特定のオブジェクトに対する手動の1回限りの同期。 Re-syncは、そのオブジェクトの現在のデータをただちに抽出してロードします。 このタイプは、エラー、スキップされた同期、またはデータの変更により、1つのオブジェクトのみを再度同期する必要がある場合に便利です。
データパイプラインは、完全な履歴同期から開始され、ソースのすべてのデータ、または指定した日付以降のデータを転送します。 初回同期が完了すると、パイプラインはIncremental syncに切り替わり、新規作成、更新、または削除されたレコードをキャプチャします。 Re-syncを使用すると、通常のスケジュール外で特定のオブジェクトを再処理できます。
詳細については、Syncタイプと実行ガイドを参照してください。
同期頻度
データパイプラインはスケジュール設定された頻度で実行され、ソースシステムと宛先システムの同期を維持します。 デフォルトの頻度は15分です。 5分間隔はリクエストに応じて利用でき、顧客ごとに有効にできます。
スケジュール設定された各実行は、選択したすべてのオブジェクトに対してIncremental syncを実行し、前回の正常な同期以降の変更のみをキャプチャします。 運用要件とシステム容量に合ったスケジュールを選択します。
パイプライン実行
各データパイプライン同期は複数の実行で構成され、選択したオブジェクトごとに1つの実行があります。 同期はすべてのオブジェクトに対するアクティビティ全体を表し、実行はその同期内の単一オブジェクトの実行状況を追跡します。
パイプラインはパフォーマンスを向上させるために実行を並列で実行します。 各実行はソースからデータを抽出し、宛先にロードします。 実行レベルのデータはRunsタブに表示され、パイプラインの実行を監視するのに役立ちます。 詳細については、オブジェクト実行セクションを参照してください。
スキーマレプリケーションとスキーマドリフト管理
スキーマドリフトとは、ソースデータに変更が発生したときに生じる、ソースと宛先の間の不整合を指します。 これらの変更には、フィールドの追加や削除、フィールドタイプの変更、またはその他の構造的な更新が含まれる場合があります。 管理されていないスキーマドリフトは、変換エラー、データ損失、不正確な分析の原因となる可能性があります。
Workatoパイプラインは同期中にスキーマドリフトを検出し、パイプライン設定に基づいてスキーマ変更を適用します。 スキーマ更新を自動的に適用するにはAuto-sync new fieldsオプションを使用し、変更を手動で確認および管理するにはBlock new fieldsを使用します。 この動作は、パイプライン設定中に設定できます。
データマスキング
データマスキングは、同期中に値を変換することで機密情報の保護に役立ちます。 パイプラインは、フィールドレベルで2つのマスキングオプションを提供します:
- Replicate as is:ソースの元のフィールド値を保持し、宛先に同期します。
- Hash:宛先に書き込む前にフィールド値をハッシュ化して、機密データを判読しにくくします。 このオプションにより、チームはコンテンツを保護しながら構造をレプリケートできます。
フィールドレベルのマスキングは、オブジェクト列ごとに適用されます。 マスキング動作は、パイプライン設定中にフィールドを選択してマッピングするときに設定できます。
Last updated: