Change Data Capture
Change Data Capture(CDC)は、データベース内の変更をキャプチャして追跡し、リアルタイムまたはnear-real-timeの監視と同期を可能にします。 CDCにより、アプリケーションは継続的なポーリングを行わずに、最新のデータベース変更を常に反映できます。
CDCは、データベーステーブル内の挿入、更新、削除を特定し、これらの変更をダウンストリームシステム、データウェアハウス、または分析プラットフォームに伝播します。 これにより、すべてのシステムが最新のデータにアクセスできるようになります。
WorkatoでのCDCの仕組み
Workatoは、指定したアプリまたはシステムの変更を監視するためにトリガーを使用します。 Workatoのトリガーは、変更をリアルタイムで監視し、それらの変更に関する通知を提供することでCDCを処理し、異なるシステム間でのデータレプリケーションと同期を容易にします。
トリガーはジョブを順番に配信し、処理済みジョブを追跡し、重複を防止し、ジョブが順序どおりに完了するようにします。 トリガーは、リアルタイム同期のために単一イベントとして、または大規模データセットを処理する際のスループットを向上させるためにbulk/batchモードでデータをディスパッチします。
CDCでサポートされるデータソース
Workatoは、次のデータソースのCDCをサポートしています。
- Software as a Service(SaaS)プラットフォーム
- オンプレミスシステム
- MySQL、PostgreSQL、Snowflakeなどのデータベース
- Workato FileStorage
- Amazon S3などのクラウドストレージサービス
- Enterprise Resource Planning(ERP)システム
高度なCDC戦略
Workatoで高度なCDC手法を活用し、データ変更を管理する際の制御、効率、パフォーマンスを向上させます。 これらの戦略は、システム間でデータをキャプチャ、処理、同期する方法の最適化に役立ちます。
フィルターと条件付きトリガーの使用
フィルターと条件付きトリガーを適用して、どのデータ変更をキャプチャし、ダウンストリームシステムに伝播するかを制御します。 このきめ細かな制御により、関連する変更のみを処理できるため、不要なデータ移動を削減できます。
大量のデータの効率的な処理
batch processingとmicro-batchingを使用して、大量のデータ変更を管理します。 これらの方法は、同期を維持し、パフォーマンスのボトルネックを最小限に抑えるのに役立ちます。
パフォーマンスの最適化
high watermarksを追跡する組み込みのcursor management、重複レコードを防止するauto-deduplication、データ整合性を維持するin-order processingなどの機能により、パフォーマンスを向上させます。
ビジネスニーズに合わせたパイプライン速度の調整
ビジネス要件に合わせて、可変速度のデータパイプラインを設定します。 Workatoは、near-real-timeストリーミング、高速ポーリングのための頻繁なmicro-batches、一括更新のための定期的なバッチスケジュールをサポートしています。
Last updated: