同期タイプ

このページは機械翻訳により提供されています。翻訳内容と英語版に相違がある場合は、英語版が優先されます。

データパイプラインレシピは次の同期タイプをサポートしています:

  • Full sync:pipelineの開始時に履歴データを読み込みます。
  • Incremental sync (CDC):スケジュールに従って、新規、変更、または削除されたレコードをキャプチャします。
  • Object re-sync:通常のpipelineスケジュール外で、特定のobjectの同期を手動でトリガーします。

各同期タイプにより、送信先は正確かつ最新の状態を維持し、ソースアプリケーションと整合します。

フル同期

フル同期は、パイプラインの開始時に1回実行されます。 選択したソースオブジェクトから送信先に履歴データをロードします。 デフォルトでは、When first started, this pipeline should pick up records fromフィールドが空白の場合、パイプラインはすべてのレコードを取得します。 特定の開始日を設定して、同期ウィンドウを制限することもできます。

パイプラインはソーススキーマを複製し、送信先に新しいテーブルを作成し、各オブジェクトを個別の実行として並列処理します。 また、送信先テーブルにデータをロードする前にデータをアップロードするため、Snowflakeに永続ステージを作成します。

フル同期では、送信先が空であることを前提としています。 destinationにWorkatoが作成した既存のテーブルが含まれる場合、pipelineはそれらを上書きします。

初回実行ではすべてのレコードを処理するため、パイプラインは各実行にフル同期というラベルを付けます。 この同期はパイプラインの開始時に自動的に実行され、手動での設定や選択は不要です。

フル同期の仕組み

フル同期では、When first started, this pipeline should pick up records fromのタイムスタンプ以降のすべてのデータが抽出されます。 このフィールドを空白のままにすると、パイプラインはソースから使用可能なすべてのレコードを取得します。

パイプラインはオブジェクトごとに1つの実行を作成し、送信先で新しく作成されたテーブルにデータをロードします。

Runsタブには、パイプラインがすべてのレコードのロードを完了するまで、各オブジェクトのステータスがIn Progressとして表示されます。 同期の所要時間はデータ量によって異なるため、Workatoは推定完了時間を提供しません。 パイプラインは初期ロードの完了後に増分同期へ移行します。

フル同期の完了

パイプラインは、フル同期が完了するまで増分同期を実行しません。

増分同期(CDC)

フル同期が完了すると、パイプラインはスケジュールされた間隔で増分同期を実行し、ソースシステムからの変更を追跡して適用します。

増分同期の仕組み

パイプラインは、スケジュールされた間隔でソースから新規、更新済み、または削除済みのレコードを抽出します。 最後に成功した同期以降の変更のみを処理します。 パイプラインは、送信先にレコードを追加する前に、新しいフィールドや更新されたフィールドサイズなどのスキーマ変更を検出し、送信先テーブルを更新します。 パイプラインは各オブジェクトを個別の実行として処理し、選択されたすべてのオブジェクトを並列に同期します。

パイプラインは、新しく追加されたフィールドの履歴データを再処理しません。 フィールドを検出した時点からのみ値のキャプチャを開始します。 前回の増分同期が完了するまで、新しい増分同期は開始されません。 同期の実行時間が想定より長い場合、パイプラインは次にスケジュールされた実行をスキップします。

Runsタブでは、各実行の進行状況と所要時間を追跡できます。 リアルタイム同期監視の詳細については、オブジェクト実行を参照してください。

増分同期の実行

現在の同期がまだ進行中の場合、パイプラインは次にスケジュールされた同期をスキップします。

オブジェクト再同期

オブジェクト再同期では、通常のパイプラインスケジュールとは独立して、特定のオブジェクトのデータを抽出してロードします。 これはObjectsタブから手動でトリガーできます。

失敗した実行の再試行、個別オブジェクトの再ロード、または送信先に特定のオブジェクトの最新データが含まれていることを確認するには、オブジェクト再同期を使用します。 この操作では、パイプラインを再起動する必要はありません。

オブジェクト再同期の仕組み

オブジェクトに対してRe-syncを選択すると、パイプラインはソースからそのオブジェクトのデータを抽出し、送信先にロードします。 この同期では、そのオブジェクトの既存のレコードのみが上書きされます。 他のオブジェクトに影響を与えず、パイプラインスキーマも変更しません。

パイプラインは、オブジェクト再同期の前に送信先テーブルを削除またはリセットしません。 操作は直ちに実行され、次にスケジュールされた同期を待機しません。

オブジェクト再同期の範囲

オブジェクト再同期は、選択したオブジェクトにのみ適用されます。 スケジュールされた同期に影響を与えず、パイプラインの同期設定も変更しません。

Last updated: