Azure Blob Storageをデータパイプラインソースとして設定

Azure Blob Storageをデータパイプラインソースとして設定し、レコードを宛先に抽出して同期します。このガイドでは、Azure Blobコンテナーに保存された.csvおよび.parquetファイルを操作するためのコネクション設定、パイプライン設定、主要な動作について説明します。

サポートされている機能

Azure Blob Storageをデータパイプラインソースとして使用する場合、次の機能がサポートされます:

Blobコンテナー内の.csvおよび.parquetファイルからデータを抽出および同期
ファイル検出による完全同期および増分同期のサポート
データ抽出のためのフィールドレベルの選択
フィールドレベルのデータマスキング

前提条件

次の設定とアクセス権が必要です:

.csvまたは.parquetファイルを保存しているBlob Storageコンテナーを持つAzureアカウント
ストレージアカウントとコンテナへのアクセス権
コンテナとBlobから読み取るために必要な権限
同期するファイルのフォルダパスとファイルパターン

接続方法

Azure Blob Storageにデータパイプラインソースとして接続するには、次の手順を実行します。このコネクションにより、パイプラインはBlobコンテナからレコードを抽出して同期できます。

Azure Blob Storageに接続

作成 > コネクションを選択するか、Cを2回押します。

新規コネクションページでAzure Blob Storageを検索して選択します。

コネクション名フィールドに名前を入力します。

Azure Blob Storageコネクション設定 Azure Blob Storage

ロケーションドロップダウンを使用して、コネクションを保存するプロジェクトを選択します。

オンプレミスグループ経由で接続する必要がない限り、コネクションタイプフィールドでCloudを選択します。

Azure ストレージアカウント名を入力します。この値は、Azure Portal > Storage accountsセクションで確認できます。

コネクションアカウントタイプを選択します：

共通：テナント固有ではない個人、エンタープライズ、マルチテナントアカウントをサポートします。
組織：マルチテナントエンタープライズアカウントをサポートします。
テナント固有：Tenant IDまたはDomainを指定する必要があります。

デフォルトは共通タイプです。

詳細設定に移動し、コネクションに基づいて追加設定を管理します:.

Azureアプリの登録からクライアントIDを入力します。取得するには、Azure Portal > App registrationsセクションを参照してください。

Azure PortalのCertificates & secretsからクライアントシークレットを入力します。

任意です。 Generate presigned URLアクションをサポートするには、アクセスキーを入力します。これは、Azure PortalのStorage account > Access keysで確認できます。

Sign in with Microsoftをクリックします。必要な権限を承認して、コネクション設定を完了します。

パイプラインの設定

Azure Blob Storageをデータパイプラインソースとして設定するには、次の手順を実行します:

作成 > データパイプラインを選択するか、C+Iを押します。

データパイプライン名フィールドにデータパイプラインの名前を入力します。

データパイプライン設定

ロケーションドロップダウンメニューを使用して、データパイプラインを保存するプロジェクトを選択します。

構築を開始を選択します。

ソースアプリから新規/更新済みレコードを抽出トリガーをクリックします。このトリガーは、パイプラインがソースアプリケーションからデータを取得する方法を定義します。

ソースアプリから新規/更新済みレコードを抽出トリガーを設定

利用可能なソースアプリのリストからAzure Blob Storageを選択します。

このパイプラインで使用する予定のAzure Blob Storageコネクションを選択します。または、+ 新規コネクションをクリックして新しいコネクションを作成します。

Azure Blob Storageコネクションを選択

監視する予定のAzure Blob Storageコンテナをコンテナ名フィールドで選択します。

Azure Blob Storageコンテナを選択

オブジェクトを追加をクリックして、パイプラインで監視および同期するファイルを設定します。

コンテナ内のフォルダパスをソースフォルダパスフィールドに入力します。パイプラインはこのフォルダを監視し、ファイル名パターンに一致するファイルを取得します。

ファイル設定を構成

ファイルタイプドロップダウンメニューを使用して、抽出するファイル形式を選択します。 Workatoは次のファイルタイプをサポートしています。

CSV: .csvファイルからデータを抽出します。追加のファイルタイプ設定の構成が必要です。
Parquet: .parquetファイルからデータを抽出します。スキーマとデータ型はファイルから直接推測されます。

ファイル名パターンフィールドでパターンを使用して、取得するファイルを定義します。複数のファイルを含めるには、orders_*などのワイルドカードを使用します。ファイル拡張子は、選択したファイルタイプに基づいて自動的に追加されます。

一致するファイルを取得をクリックして、定義したパターンに一致するファイルをプレビューします。

同期先テーブルのスキーマを定義する参照ファイルを選択します。

ファイルタイプ固有の設定を構成します:

参照ファイルからカラムを読み込んでプレビューするには、スキーマを取得をクリックします。

スキーマを確認し、想定されるテーブル構造と一致していることを確認します。スキーマプレビューには、ソースファイルの列と、次のシステム生成列が含まれます。

_file: 各行の元になったソースファイルの名前。
_line: ソースファイル内の各レコードの行番号またはロー番号。

マージ戦略を選択フィールドで、宛先テーブル内の行をマージする方法を設定します。 Workatoは次のマージ戦略をサポートしています:

アップサート: 新しい行を挿入し、既存の行を更新します。 アップサートを選択すると、マージ方法フィールドが表示されます。宛先テーブルのプライマリキーとして使用する列を1つ以上選択できます。 マージ方法を空白のままにすると、パイプラインはシステム生成列_fileと_lineを複合プライマリキーとして使用します。
追加のみ: 既存のレコードとの照合や更新を試みずに、すべての行を挿入します。 追加のみを選択すると、パイプラインはキーで照合せず、既存の行を更新しません。

オブジェクトを確認をクリックして、設定を確認します。この画面には、ファイル設定、ファイルタイプ固有のオプション、マージの詳細が表示されます。

オブジェクト名を入力します。この名前は宛先テーブル名を定義します。

完了をクリックして、オブジェクト設定を保存します。

選択した各オブジェクトのスキーマを確認してカスタマイズします。オブジェクトを選択すると、パイプラインはそのスキーマを自動的に取得し、宛先がソースと一致するようにします。

任意のオブジェクトを展開して、そのフィールドを表示します。使用可能なすべてのデータを抽出するにはすべてのフィールドを選択したままにし、データ抽出とスキーマレプリケーションから除外するには特定のフィールドの選択を解除します。

任意です。フィールドレベルのデータ保護を設定します。オブジェクトを展開した後、各フィールドの処理方法を選択します:

そのままレプリケート（デフォルト）: ソースのデータ値が宛先に同一にレプリケートされます。
ハッシュ: 宛先に同期する前に、列内の機密データ値をハッシュ化します。

フィールドレベルのデータ保護を設定

同じフローを使用してさらにオブジェクトを追加するには、もう一度オブジェクトを追加をクリックします。この手順を繰り返して、パイプラインに複数のAzure Blob Storageオブジェクトを含めることができます。

スキーマ変更の処理方法を選択:

スキーマ変更を自動的に検出して適用するには、新しいフィールドを自動同期を選択します。
スキーマ変更を手動で管理するには、新しいフィールドをブロックを選択します。このオプションを使用すると、ソーススキーマが更新された場合に宛先が同期されなくなる可能性があります。

同期されていないスキーマ変更は、スキーマドリフトとも呼ばれ、管理しないと問題が発生する可能性があります。詳細については、スキーマドリフトセクションを参照してください。

頻度フィールドで、パイプラインがソースから宛先にデータを同期する頻度を設定します。標準の時間ベースのスケジュールを選択するか、カスタムcron式を定義します。

ファイルスキーマと処理

Azure Blob Storageコネクターは、コンテナーに保存された.csvおよび.parquetファイルを読み取ります。これらのファイルは、パイプラインが抽出して宛先に同期する構造とデータを定義します。

Workatoは、選択した参照ファイルからスキーマとデータ型を推論し、それらを宛先テーブルにマッピングします。 Workatoは、.csvファイルの日付値と日時値を文字列として扱います。ロードが完了したら、宛先でこれらのフィールドを適切な日付型または日時型に変換します。

正確なスキーママッピングを確保するため、パイプラインで処理されるすべてのファイルは、参照ファイルと同じ列構造とデータ形式を維持する必要があります。

最終更新日:

Azure Blob Storageをデータパイプラインソースとして設定 ​

サポートされている機能 ​

前提条件 ​

接続方法 ​

パイプラインの設定 ​

ファイルスキーマと処理 ​