サンプルユースケース - データの検証とクレンジング

このページは機械翻訳により提供されています。翻訳内容と英語版に相違がある場合は、英語版が優先されます。

データクレンジングと検証は、適切なデータセットをビジネスアプリケーションに追加するための鍵です。 多くの場合、ソースからの受信データはさまざまな理由で正確でない可能性があるため、ダウンストリームに送信する前に、送信先側の制約を満たすように検証、標準化、フォーマットする必要があります。

SQL Transformationsには、ユーザーが次のことを行えるさまざまな関数が用意されています。

  • データの検証とクレンジング

  • SQL Transformationsでは、パターンマッチング、メールアドレスや電話番号の有効性チェック、特定の列にある不要なスペースや特殊文字のトリミングと削除などをサポートしています。

  • 標準化

  • SQL Transformationsでは、電話番号への国番号や市外局番の追加、名前の各部分の分割または結合、指定された郵便番号が有効であることの確認などを実行できます。

  • 変換

  • 整数と小数を最も近い値に丸める、日付/時刻をある形式から別の形式に変換する、null値を特定のデフォルト値に置き換えるなどを実行します。

サンプルレシピ: オンプレミスソースからリードを抽出し、Marketoにロードする前にデータを検証およびクレンジングする

次のシナリオを考えてみます。

ある会社がオンラインおよびオフラインのマーケティングキャンペーンを積極的に実施しており、その結果、大量のリードが生成されています。 リードはまとめて蓄積され、オンプレミスシステムにCSVファイルとして保存されます。 その会社は、リードを抽出し、基本的な検証ロジックに合格することを確認して、フィルタリングしたリードをMarketoに一括送信することを計画しています。

リード情報は非常に大きいため(約100Kレコード)、通常はWorkatoを使用してすべてのリードを外部データベースに保存し、クエリを実行してリードを検証する必要があります。 次に、クレンジングされたリードを取得してWorkatoに戻し、フィルタリングしてからMarketoにロードする必要があります。

これは非常に面倒で、外部データベースシステムへの依存が生じます。

SQL Transformationsを使用すると、同じワークフローをいくつかの簡単な手順で実現できます。

1

トリガーで、ファイルのソースであるオンプレミスシステムを設定し、新しい受信ファイルを検索するように構成します。

2

ファイルが使用可能になったら、そのファイルを取得してWorkato FileStorageシステムに保存します。 これはWorkato内のファイルのバックアップとして機能し、何らかの理由でロードに失敗した場合に再利用できます。

3

次に、SQL TransformationsコネクターからQuery CSVアクションを設定します。このアクションはリードを検証およびフィルタリングして、クレンジングされたデータを生成します。

4

データをCSVファイルとしてMarketoに送信します。

レシピワークフロー

データの検証とクレンジングにSQL Transformationsを活用する方法

このセクションでは、Query CSVアクションの設定方法について説明します。これにより、データの検証とクレンジングにSQL Transformationsを活用できるようになります。

一緒に進める

このレシピリンクを参照して、サンプルレシピを自分のワークフローに合わせて変更しながら進めてください。

データソースのセットアップ

SQL Transformationsがクエリを実行するさまざまなデータソースを接続します。 ここでは2つのデータソースがあります。

1

ソース#1を接続するには、次のフィールドに入力します。 この例では、ソース#1はオンプレミスシステムからの受信抽出データです。

  • データソース名

  • データソース名にわかりやすい名前を付けます。例: leads

  • データソースタイプ

  • データソースタイプを選択します。 この例では、CSVデータが上流のオンプレミスシステムから送られてくるため、これはCSVコンテンツストリームです。

  • CSVストリーム入力

  • データソースをCSVコンテンツストリームとして設定したら、CSVストリーム入力を設定できます。 ここで、オンブレミスファイルトリガーから送られてくるファイルコンテンツを渡します。

  • データスキーマ

  • データスキーマを設定します。 これは、いくつかのサンプル連絡先データを含むCSVファイルをインポートすることで簡単に実行できます。

データソース#1ソース#1を接続

2

CSV固有のオプションを構成します。 これには次のフィールドが含まれます。

  • CSVヘッダー行を無視

  • これによりユーザーは、受信データに、無視してデータの一部として扱わない見出し列があるかどうかを指定できます。

  • 列区切り文字

  • CSVファイルで列を区切るために使用する区切り文字を選択します。 使用可能なオプションには、,(カンマ)、;(セミコロン)などがあります。

3

ソース#2を接続するには、次のフィールドに入力します。

  • データソース名

  • データソース名にわかりやすい名前を付けます。例: zipcode_lookup

  • データソースタイプ

  • データソースタイプを選択します。 この例では、これはFileStorageファイルです。 このデータは頻繁に再利用でき、あまり変更されないため、Workato独自の内部永続ファイルストレージシステムであるFileStorageを使用すると、このデータを簡単に保存および処理できます。

  • CSVストリーム入力

  • データを取得するには、CSV参照データピルを指定します。 この例では、Google Driveのダウンロードアクションからのコンテンツを使用します。

  • データスキーマ

  • データスキーマを設定します。 これは、いくつかのサンプル連絡先データを含むCSVファイルをインポートすることで簡単に実行できます。

データソース#2ソース#2を接続

クエリのセットアップ

データソースに対して機能し、変換された出力を生成するクエリを設定します。 この例では、クエリは姓と名を連結してフルネームを標準化し、指定されたメールIDが特定のパターンに従っているかどうかを確認します。また、郵便番号ルックアップファイルと結合することで、指定された郵便番号が有効かどうかも検証します。

クエリのセットアップ

出力のセットアップ

最後に、出力の形式を定義します。 クレンジングされたリードをMarketoに送信する予定のため、出力タイプとしてCSVコンテンツストリームを選択します。 つまり、Query CSVデータのCSVコンテンツ出力データピルをMarketo一括アクションのファイル入力セクションに渡すことができ、コンテンツはQuery CSVアクションからMarketoに自動的にストリーミングされます。 また、データソースのセットアップと同様に、ここでは出力CSVコンテンツで使用する区切り文字と、列ヘッダーを含めるかどうかを選択するオプションがあります。

1

以下のフィールドに入力します:

  • 出力タイプ

  • 出力のタイプを選択します。 CSVコンテンツストリームを使用して、コンテンツをダウンストリームアクションにストリーミング可能なデータピルとして共有します。

  • ヘッダー行を含める

  • データの列名をファイルにヘッダー行として追加する必要がある場合は、はいに設定します。 これは、ファイルを使用してレポートを生成する予定がある場合に便利です。 デフォルト値はいいえです。

  • 列区切り文字

  • CSVファイルで列を区切るために使用する区切り文字を選択します。 使用可能なオプションには、,(カンマ)、;(セミコロン)などがあります。

出力のセットアップ

2

Bulk import leads to Marketo from fileアクションを選択します。

3
  • ファイル入力

  • Marketoにインポートするファイルコンテンツ。 ステップ2CSVコンテンツをマッピングします。

  • 列区切り文字

  • CSVファイルで列を区切るために使用する区切り文字を選択します。 使用可能なオプションには、,(カンマ)、;(セミコロン)などがあります。

  • ヘッダー行を含むか?

  • CSVコンテンツにヘッダー行が含まれている場合は、はいを選択します。 それ以外の場合は、いいえを選択します。 ファイルにヘッダー行が含まれている場合、アクションは最初の行をリードとしてインポートすることをスキップします。

S3アップロードアクションのセットアップ

サンプルユースケース

その他のサンプルユースケースを確認するには、次のガイドをお読みください。

Last updated: