# サンプルユースケース - データのバリデーションとクレンジング

データのクレンジングとバリデーションは、正しいデータセットがビジネスアプリケーションに追加されることを保証するために重要です。ソースからの入力データは、さまざまな理由で正確でない場合があり、送信先での制約を満たすために検証、標準化、およびフォーマットする必要があります。

SQL変換では、ユーザーが次のことができるさまざまな関数を提供しています。

  • データのバリデーションとクレンジング

  • SQL変換は、パターンマッチングやメールアドレスや電話番号の妥当性のチェック、特定の列の不要なスペースや特殊文字のトリミングや削除などをサポートしています。

  • 標準化

  • SQL変換は、電話番号に国コードや地域コードを追加したり、名前の異なる部分を分割または結合したり、提供された郵便番号が有効であることを確認したりすることができます。

  • 変換

  • 整数や小数を最も近い値に丸めたり、日付/時刻を別の形式に変換したり、ヌル値を特定のデフォルト値で置き換えたりすることができます。

# サンプルレシピ:オンプレミスソースからリードを抽出し、データをバリデーションしてクレンジングしてからMarketoにロードする

次のシナリオを考えてみましょう:

会社は、オンラインおよびオフラインのマーケティングキャンペーンを実施し、大量のリードを生成しています。リードはまとめられ、オンプレミスシステムのCSVファイルとして保存されます。会社は、リードを抽出し、基本的なバリデーションロジックをパスすることを確認し、フィルタリングされたリードを一括でMarketoに送信する予定です。

リード情報は非常に大量です(約10万件)ので、通常はWorkatoを使用してすべてのリードを外部データベースに保存し、リードをバリデーションするためにクエリを実行する必要があります。その後、クレンジングされたリードをWorkatoに戻してフィルタリングし、それからMarketoにロードする必要があります。

これは非常に手間がかかり、外部データベースシステムに依存性を作ります。

SQL変換を使用すると、同じワークフローをわずかなステップで実現できます!

1

トリガーで、ファイルのソース(オンプレミスシステム)を設定し、新しい入力ファイルを検索するように構成します。

2

ファイルが利用可能になったら、それを取得してWorkato FileStorageシステムに保存します。これは、ロードが何らかの理由で失敗した場合に再利用できるファイルのバックアップとして機能します。

3

次に、SQL変換コネクタのQuery CSVアクションを設定し、リードをバリデーションしてフィルタリングしてクレンジングされたデータを生成します。

4

データをCSVファイルとしてMarketoに送信します。

レシピのワークフロー

# データのバリデーションとクレンジングにSQL変換を活用する方法

このセクションでは、Query CSVアクションの設定方法について説明し、データのバリデーションとクレンジングにSQL変換を活用する方法を説明します。

一緒に進める

このレシピリンクを参照して、サンプルレシピを変更して独自のワークフローに合わせる方法を確認してください。

# データソースの設定

SQL変換がクエリを実行する異なるデータソースを接続します。ここでは2つのデータソースがあります。

1

ソース#1に接続するには、次のフィールドに入力します。この例では、ソース#1はオンプレミスシステムからの入力抽出です。

  • データソース名

  • データソース名に意味のある名前を指定します。例えばleadsとします。

  • データソースタイプ

  • データソースタイプを選択します。この例では、上流のオンプレミスシステムからのCSVデータが入ってくるため、CSVコンテンツストリームです。

  • CSVストリーム入力

  • データソースをCSVコンテンツストリームとして設定した後、CSVストリーム入力を設定できます。これは、オンプレミスファイルトリガーから送られてくるファイルの内容を渡す場所です。

  • データスキーマ

  • データスキーマを設定します。これは、いくつかのサンプル連絡先データを含むCSVファイルをインポートすることで簡単に行うことができます。

データソース#1ソース#1に接続

2

CSV固有のオプションを設定します。これには、次のフィールドが含まれます。

  • CSVヘッダー行を無視する

  • 入力データにヘッダーカラムがある場合、それを無視してデータの一部として考慮しないように指定できます。

  • カラム区切り記号

  • CSVファイルで列を区切るために使用される区切り記号を選択します。利用可能なオプションには、,(カンマ)、;(セミコロン)などがあります。

3

ソース#2に接続するには、次のフィールドに入力します。

  • データソース名

  • Data source name に意味のある名前を付けてください。例えば、zipcode_lookup などです。

  • データソースのタイプ

  • データソースのタイプ を選択します。この例では、FileStorage file です。このデータは頻繁に再利用され、あまり変更されないため、FileStorage、Workato の独自の永続的なファイルストレージシステムを使用して簡単に保存および処理できます。

  • CSV ストリームの入力

  • データを取得するために CSV 参照データピルを提供します。この例では、Google ドライブのダウンロードアクションからのコンテンツを使用しています。

  • データスキーマ

  • データスキーマ を設定します。これは、いくつかのサンプルの連絡先データが含まれた CSV ファイルをインポートすることで簡単に行えます。

データソース #2Connect Source #2

# クエリのセットアップ

データソース上で動作し、変換された出力を生成するクエリを設定します。この例では、フルネームを名前と姓を連結して標準化し、提供されたメールIDが特定のパターンに従っているかどうかをチェックし、郵便番号のルックアップファイルと結合することで、提供された郵便番号が有効かどうかも検証しています。

クエリのセットアップ

# 出力のセットアップ

最後に、出力の形式を定義します。クリーンアップされたリードをMarketoに送信する予定なので、出力タイプとしてCSVコンテンツストリームを選択します。これにより、クエリCSVアクションからMarketoへのファイル入力セクションにCSVコンテンツ出力データピルを渡すことができ、クエリCSVアクションからMarketoへ自動的にコンテンツがストリーミングされます。また、データソースのセットアップと同様に、出力CSVコンテンツで使用する区切り文字と、列ヘッダーを含めるかどうかを選択するオプションもあります。

1

以下のフィールドに入力してください:

  • 出力タイプ

  • 出力のタイプを選択します。ストリーム可能なデータピルとしてコンテンツを共有するためにCSVコンテンツストリームを使用します。

  • ヘッダー行を含める

  • データの列名をファイルのヘッダー行として追加する場合はYesに設定します。これは、レポートの生成にファイルを使用する場合に便利です。デフォルト値はNoです。

  • 列区切り文字

  • CSVファイルで列を区切るために使用する区切り文字を選択します。利用可能なオプションには ,(カンマ)、;(セミコロン)などがあります。

出力のセットアップ

2

ファイルからMarketoへの一括リードインポートアクションを選択します。

3

以下のフィールドに入力してください:

  • ファイル入力

  • Marketoにインポートするファイルのコンテンツ。Step 2からCSVコンテンツをマップします。

  • 列区切り文字

  • CSVファイルで列を区切るために使用する区切り文字を選択します。利用可能なオプションには ,(カンマ)、;(セミコロン)などがあります。

  • ヘッダーラインを含む?

  • CSVコンテンツにヘッダーラインが含まれている場合はYesを選択します。それ以外の場合はNoを選択します。ファイルにヘッダーラインが含まれている場合、アクションは最初の行をリードとしてインポートしません。

S3アップロードアクションのセットアップ

サンプルユースケース

さらなるサンプルユースケースを表示するには、以下のガイドを読んでください:


Last updated: 2024/2/13 16:59:53