同期タイプ
データパイプラインレシピは次の同期タイプをサポートしています:
- Full sync:pipelineの開始時に履歴データを読み込みます。
- Incremental sync (CDC):スケジュールに従って、新規、変更、または削除されたレコードをキャプチャします。
- Object re-sync:通常のpipelineスケジュール外で、特定のobjectの同期を手動でトリガーします。
各同期タイプにより、送信先は正確かつ最新の状態を維持し、ソースアプリケーションと整合します。
フル同期
フル同期は、パイプラインの開始時に1回実行されます。 選択したソースオブジェクトから送信先に履歴データをロードします。 デフォルトでは、When first started, this pipeline should pick up records fromフィールドが空白の場合、パイプラインはすべてのレコードを取得します。 特定の開始日を設定して、同期ウィンドウを制限することもできます。
パイプラインはソーススキーマを複製し、送信先に新しいテーブルを作成し、各オブジェクトを個別の実行として並列処理します。 また、送信先テーブルにデータをロードする前にデータをアップロードするため、Snowflakeに永続ステージを作成します。
フル同期では、送信先が空であることを前提としています。 destinationにWorkatoが作成した既存のテーブルが含まれる場合、pipelineはそれらを上書きします。
初回実行ではすべてのレコードを処理するため、パイプラインは各実行にフル同期というラベルを付けます。 この同期はパイプラインの開始時に自動的に実行され、手動での設定や選択は不要です。
フル同期の仕組み
フル同期では、When first started, this pipeline should pick up records fromのタイムスタンプ以降のすべてのデータが抽出されます。 このフィールドを空白のままにすると、パイプラインはソースから使用可能なすべてのレコードを取得します。
パイプラインはオブジェクトごとに1つの実行を作成し、送信先で新しく作成されたテーブルにデータをロードします。
Runsタブには、パイプラインがすべてのレコードのロードを完了するまで、各オブジェクトのステータスがIn Progressとして表示されます。 同期の所要時間はデータ量によって異なるため、Workatoは推定完了時間を提供しません。 パイプラインは初期ロードの完了後に増分同期へ移行します。
フル同期の完了
パイプラインは、フル同期が完了するまで増分同期を実行しません。
増分同期(CDC)
フル同期が完了すると、パイプラインはスケジュールされた間隔で増分同期を実行し、ソースシステムからの変更を追跡して適用します。
増分同期の仕組み
パイプラインは、スケジュールされた間隔でソースから新規、更新済み、または削除済みのレコードを抽出します。 最後に成功した同期以降の変更のみを処理します。 パイプラインは、送信先にレコードを追加する前に、新しいフィールドや更新されたフィールドサイズなどのスキーマ変更を検出し、送信先テーブルを更新します。 パイプラインは各オブジェクトを個別の実行として処理し、選択されたすべてのオブジェクトを並列に同期します。
パイプラインは、新しく追加されたフィールドの履歴データを再処理しません。 フィールドを検出した時点からのみ値のキャプチャを開始します。 前回の増分同期が完了するまで、新しい増分同期は開始されません。 同期の実行時間が想定より長い場合、パイプラインは次にスケジュールされた実行をスキップします。
Runsタブでは、各実行の進行状況と所要時間を追跡できます。 リアルタイム同期監視の詳細については、オブジェクト実行を参照してください。
増分同期の実行
現在の同期がまだ進行中の場合、パイプラインは次にスケジュールされた同期をスキップします。
オブジェクト再同期
オブジェクト再同期では、通常のパイプラインスケジュールとは独立して、特定のオブジェクトのデータを抽出してロードします。 これはObjectsタブから手動でトリガーできます。
失敗した実行の再試行、個別オブジェクトの再ロード、または送信先に特定のオブジェクトの最新データが含まれていることを確認するには、オブジェクト再同期を使用します。 この操作では、パイプラインを再起動する必要はありません。
オブジェクト再同期の仕組み
オブジェクトに対してRe-syncを選択すると、パイプラインはソースからそのオブジェクトのデータを抽出し、送信先にロードします。 この同期では、そのオブジェクトの既存のレコードのみが上書きされます。 他のオブジェクトに影響を与えず、パイプラインスキーマも変更しません。
パイプラインは、オブジェクト再同期の前に送信先テーブルを削除またはリセットしません。 操作は直ちに実行され、次にスケジュールされた同期を待機しません。
オブジェクト再同期の範囲
オブジェクト再同期は、選択したオブジェクトにのみ適用されます。 スケジュールされた同期に影響を与えず、パイプラインの同期設定も変更しません。
Last updated: