Google Driveをデータパイプラインソースとして設定
Google Driveをデータパイプラインソースとして設定し、レコードを抽出して宛先に同期します。 このガイドには、Google Driveフォルダに保存された.csvおよび.parquetファイルを操作するためのコネクション設定、パイプライン設定、主要な動作が含まれます。
サポートされている機能
Google Driveをデータパイプラインソースとして使用する場合、次の機能がサポートされます:
- Driveフォルダ内の
.csvおよび.parquetファイルからのデータの抽出および同期 - ファイル検出による完全同期および増分同期のサポート
- データ抽出のためのフィールドレベルの選択
- フィールドレベルのデータマスキング
前提条件
次の設定とアクセス権が必要です:
- 必要なDriveフォルダへのアクセス権を持つGoogleアカウント
- 認証用のOAuthまたはサービスアカウント認証情報
- 同期するファイルのフォルダパスとファイルパターン
Google Driveに接続
Google Driveにデータパイプラインソースとして接続するには、次の手順を完了します。 このコネクションにより、パイプラインはDrive内のファイルからレコードを抽出して同期できます。
Google Driveへの接続
作成 > コネクションを選択するか、Cを2回押します。
新規コネクションページでGoogle Driveを検索して選択します。
コネクション名フィールドに名前を入力します。
Google Drive
ロケーションドロップダウンを使用して、コネクションを保存するプロジェクトを選択します。
認証タイプを選択します:
- OAuth 2.0: この方法を使用してGoogleユーザーアカウントで認証します。
- サービスアカウント: この方法を使用して、Google CloudプロジェクトのサービスアカウントJSONキーで認証します。
認証タイプに基づいて、次の追加フィールドを設定します:
任意です。 詳細設定を展開し、要求された権限を選択します。
任意です。 OAuth設定を外部で管理している場合は、Custom OAuth profileを使用します。
Googleでログインをクリックし、OAuth同意フローを完了します。
パイプラインの設定
Google Driveをデータパイプラインソースとして設定するには、次の手順を完了します:
作成 > データパイプラインを選択するか、C+Iを押します。
データパイプライン名フィールドにデータパイプラインの名前を入力します。
データパイプライン設定
ロケーションドロップダウンメニューを使用して、データパイプラインを保存するプロジェクトを選択します。
構築を開始を選択します。
ソースアプリから新規/更新済みレコードを抽出トリガーをクリックします。 このトリガーは、パイプラインがソースアプリケーションからデータを取得する方法を定義します。
ソースアプリから新規/更新済みレコードを抽出トリガーを設定
接続済みソースアプリからGoogle Driveを選択します。
このパイプラインで使用するGoogle Driveコネクションを選択します。 または、+ 新規コネクションをクリックして新しいコネクションを作成します。
Google Driveコネクションを選択
オブジェクトを追加をクリックして、パイプラインで監視および同期するファイルを設定します。
Google Driveオブジェクトを追加
Source Folder path(ソースフォルダパス)フィールドに監視するフォルダパスを入力します。 パイプラインはこのフォルダを監視し、ファイル名パターンに一致するファイルを取得します。
ファイル設定を構成
ネストされたフォルダの制限
Google Driveコネクターは、ネストされたサブフォルダからファイルを取得しません。 Source Folder path(ソースフォルダパス)フィールドで指定したフォルダ内に直接配置されているファイルのみを監視し、取得します。
パイプラインでサブフォルダ内のファイルを含める必要がある場合は、それらのファイルを最上位フォルダに移動します。 Google Driveでのネストされたフォルダのサポートは、今後のアップデートで予定されています。
ファイルタイプドロップダウンメニューを使用して、抽出するファイル形式を選択します。 Workatoは次のファイルタイプをサポートしています。
- CSV:
.csvファイルからデータを抽出します。 追加のファイルタイプ設定の構成が必要です。 - Parquet:
.parquetファイルからデータを抽出します。 スキーマとデータ型はファイルから直接推測されます。
ファイル名パターンフィールドでパターンを使用して、取得するファイルを定義します。 複数のファイルを含めるには、orders_*などのワイルドカードを使用します。 ファイル拡張子は、選択したファイルタイプに基づいて自動的に追加されます。
一致するファイルを取得をクリックして、定義したパターンに一致するファイルをプレビューします。
宛先テーブルのスキーマを定義する参照ファイルを選択します。
ファイルタイプ設定を構成します。
スキーマを取得をクリックして、参照ファイルからスキーマを取得します。
スキーマを確認し、想定されるテーブル構造と一致していることを確認します。 スキーマプレビューには、ソースファイルの列と、次のシステム生成列が含まれます。
_file: 各行の元になったソースファイルの名前。_line: ソースファイル内の各レコードの行番号またはロー番号。
スキーマを確認
マージ戦略を選択フィールドで、宛先テーブル内の行をマージする方法を設定します。 Workatoは次のマージ戦略をサポートしています:
- アップサート: 新しい行を挿入し、既存の行を更新します。 アップサートを選択すると、マージ方法フィールドが表示されます。 宛先テーブルのプライマリキーとして使用する列を1つ以上選択できます。 マージ方法を空白のままにすると、パイプラインはシステム生成列
_fileと_lineを複合プライマリキーとして使用します。 - 追加のみ: 既存のレコードとの照合や更新を試みずに、すべての行を挿入します。 追加のみを選択すると、パイプラインはキーで照合せず、既存の行を更新しません。
オブジェクトを確認をクリックして、設定を確認します。 この画面には、ファイル設定、ファイルタイプ固有のオプション、マージの詳細が表示されます。
オブジェクトを確認
オブジェクト名を入力します。 この名前は宛先テーブル名を定義します。
完了をクリックして、オブジェクト設定を保存します。
選択した各オブジェクトのスキーマを確認してカスタマイズします。 オブジェクトを選択すると、パイプラインはそのスキーマを自動的に取得し、宛先がソースと一致するようにします。
任意のオブジェクトを展開して、そのフィールドを表示します。 使用可能なすべてのデータを抽出するにはすべてのフィールドを選択したままにし、データ抽出とスキーマレプリケーションから除外するには特定のフィールドの選択を解除します。
任意です。 フィールドレベルのデータ保護を設定します。 オブジェクトを展開した後、各フィールドの処理方法を選択します:
- そのままレプリケート(デフォルト): ソースのデータ値が宛先に同一にレプリケートされます。
- ハッシュ: 宛先に同期する前に、列内の機密データ値をハッシュ化します。
フィールドレベルのデータ保護を設定
同じフローを使用してさらにオブジェクトを追加するには、もう一度オブジェクトを追加をクリックします。 この手順を繰り返して、複数のGoogle Driveオブジェクトをパイプラインに含めることができます。
スキーマ変更の処理方法を選択:
- スキーマ変更を自動的に検出して適用するには、新しいフィールドを自動同期を選択します。
- スキーマ変更を手動で管理するには、新しいフィールドをブロックを選択します。 このオプションを使用すると、ソーススキーマが更新された場合に宛先が同期されなくなる可能性があります。
同期されていないスキーマ変更は、スキーマドリフトとも呼ばれ、管理しないと問題が発生する可能性があります。 詳細については、スキーマドリフトセクションを参照してください。
頻度フィールドで、パイプラインがソースから宛先にデータを同期する頻度を設定します。 標準の時間ベースのスケジュールを選択するか、カスタムcron式を定義します。
ファイルスキーマと処理
Google Driveコネクターは、指定されたフォルダに保存されている.csvおよび.parquetファイルを読み取ります。 これらのファイルは、パイプラインが抽出して宛先に同期する構造とデータを定義します。
Workatoは、選択した参照ファイルからスキーマとデータ型を推測します。 Workatoは、.csvファイルの日付値と日時値を文字列として扱います。 ロードが完了した後、宛先でこれらのフィールドを適切なデータ型に変換します。
正確なスキーママッピングを確保するには、一致するすべてのファイルで同じ列構造とデータ形式を維持する必要があります。
Last updated:
同期頻度を設定
同期頻度を設定