ガードレール

ガードレールは、ジーニーが信頼性高く適切に動作することを保証する組み込みのセキュリティおよび安全管理機能です。ガードレールはジーニーの Build ページで構成します。パネルは以下のセクションで構成されています。

  • Content safety:常時有効で読み取り専用の Prompt Attack および Harmful Content ガードレールの感度を設定します。これにより、スパム、フィッシング、プロンプト攻撃、有害コンテンツから保護します。
  • Data Protection:PII 検出のオン/オフを切り替え、エンティティタイプごとの取り扱いモードを構成し、カスタム正規表現パターンを定義します。
  • Topic & word filters:冒涜表現フィルターとカスタム単語フィルターのオン/オフを切り替え、単語およびフレーズリストを管理します。Denied Topics を使用して拒否トピックを追加、編集、削除できます。

コンテンツ安全ガードレールは低、中、または高の感度に構成できます。感度設定は、PII 検出やトピックおよび単語フィルターには適用できません。

ブロック感度レベルブロック感度レベル

ベータ機能

この機能はベータ版です。Workato はベータ期間中、予告なしに機能を更新したり、提供状況を変更したりする場合があります。この機能の詳細については、アカウントマネージャーにお問い合わせください。

Content safety

コンテンツ安全ガードレールはすべてのジーニーで自動的に有効になっており、無効にすることはできません。コンテンツ安全は以下で構成されています。

  • Prompt Attack 検出は、ジーニーの動作を操作したり、システム構成を抽出したりする試みをブロックします。

  • Harmful Content フィルタリングは、危険な素材が処理または生成されることを防ぎます。

Prompt Attack

Prompt Attack 検出は、ジーニーの動作を操作したり、安全ガイドラインを回避したり、システム構成を抽出したりする試みをブロックします。これには以下が含まれます。

  • プロンプトインジェクションIgnore all previous instructions で始まるメッセージなど、ジーニーの指示を上書きするように作成された入力です。
  • ジェイルブレイクの試行:安全ガイドラインを回避するように設計されたロールプレイシナリオまたはマルチターン操作です。
  • プロンプトリーク:ジーニーのジョブ説明やシステムプロンプトを表示させようとするリクエストです。

プロンプト攻撃が検出されると、ジーニーの実行は直ちに停止し、以下のメッセージが表示されます:I'm not able to process this request. Please try rephrasing your question.

Harmful Content

Harmful Content フィルタリングは、危険な素材が処理または生成されることを防ぎます。検出は、以下のカテゴリでユーザー入力とジーニー出力の両方に適用されます。

カテゴリ説明
ヘイトスピーチ人種、宗教、性別、国籍、その他の保護された属性に基づいて人々を貶めるコンテンツです。中傷的または差別的な発言。
侮辱個人やグループに向けた侮蔑的または軽蔑的な言葉。いじめ、辱め、言葉による攻撃を含みます。個人攻撃やいじめ。
性的コンテンツ露骨または示唆的な性的素材。通常の使用で職業的な健康や安全のトピックが想定されるジーニーには Low を使用します。アダルトコンテンツや性的勧誘。
暴力身体的危害、脅迫、または生々しいコンテンツの描写です。この設定は、応急処置や職場の危険報告などの事実に基づく安全情報には影響しません。武器の使用説明や生々しい暴力。
不正行為詐欺、犯罪行為、不正なシステムアクセス、または個人や組織を標的とするその他の有害な行動を助長するコンテンツです。薬物の使用説明や詐欺スキーム。
  • ユーザー入力で有害コンテンツが検出された場合:ユーザーには以下のメッセージが表示されます:Your message contains content that I'm not able to respond to. Please rephrase your request.
  • ジーニー出力で有害コンテンツが検出された場合:ユーザーには以下のメッセージが表示されます:I'm not able to provide a response to this request.

オプションのガードレール

オプションのガードレールは、Build ページの Guardrails パネルでジーニーごとに構成できます。オプションのガードレールはデフォルトでオフになっています。

PII 検出

PII 検出は、会話内の個人を特定できる情報を識別し、構成したモードに従って処理します。検出は以下のチェックポイントに適用されます。

  • ユーザー入力
  • ツール入力および出力
  • ジーニー出力

以下の高リスクエンティティタイプはデフォルトでオンになっています。

  • 社会保障番号
  • クレジットカード番号
  • 銀行口座番号
  • パスワード
  • API キー

低リスクのエンティティタイプはデフォルトでオフに設定されています。以下の低リスクエンティティタイプの検出のオン/オフを切り替えることができます。

  • メールアドレス
  • 電話番号
  • 氏名
  • 住所

取り扱いモード

各エンティティタイプで検出された PII の処理方法を構成できます。

モード説明
BlockPII を LLM に渡すことを拒否します。ジーニーはエラーコンテキストを受け取り、ユーザーにわかりやすい拒否を生成します。
RedactLLM に渡す前に PII をマスクされたプレースホルダー(例:[SSN:***-**-6789])に永続的に置き換えます。ジーニーの出力もスキャンされ、ユーザーに返される前にマスクされます。
TokenizeLLM に渡す前に PII を可逆トークン(例:[EMAIL_TOKEN_1])に置き換えます。トークンは、ジーニーの出力でユーザーに返される前に元の値に変換されます。トークンマッピングは安全に保存され、LLM に送信されることはありません。
Log OnlyPII を検出し、デバッグトレースでのみフラグを立てます。コンテンツは変更されずに通過します。より厳格なモードを実施する前のモニタリングに役立ちます。

トークン化の動作

トークン化により、ジーニーは生の値を公開することなく、PII を含むコンテンツを推論できます。以下のルールが適用されます。

  • 同じ PII 値は、会話内で常に同じトークンにマッピングされ、参照の一貫性が保たれます。
  • トークンマッピングは会話のスコープ内に限定され、デバッグトレース、ログ、または API レスポンスで公開されることはありません。
  • PII を含むツールレスポンスは、LLM に送信される前にトークン化されます。
  • トークンを含むジーニーの出力とスキルの入力は、トークン化が解除されます。
  • ネストされた各ジーニーは独立したトークンマッピングを保持します。

カスタム正規表現パターン

従業員 ID など、組織固有の機密データを検出するために、最大 10 個のカスタム正規表現パターンを定義できます。各パターンには名前と有効な正規表現文字列が必要で、組み込みエンティティタイプと同じ取り扱いモードをサポートします。パターンは保存前に検証されます。

PII ブロックがトリガーされると、ユーザーには次のメッセージが表示されます:Your message contains sensitive personal information. Please remove personal details and try again.

冒涜表現フィルター

冒涜表現フィルターは、AWS Bedrock が管理する単語リストを使用して、ユーザー入力とジーニー出力の両方で冒涜的なコンテンツをブロックします。冒涜表現フィルターがトリガーされると、ジーニーの実行が停止し、ユーザーには以下のメッセージが表示されます:Your message contains content that is not allowed.

カスタム単語フィルター

カスタム単語フィルターでは、会話から特定の単語またはフレーズをブロックできます。マッチングは大文字小文字を区別せず、完全一致であり、部分文字列ベースではありません。最大 100 個の単語またはフレーズを追加でき、フィルターをユーザー入力、ジーニー出力、または両方に適用するかを構成できます。

カスタム単語フィルターがトリガーされると、ジーニーの実行が停止し、ユーザーには以下のメッセージが表示されます:Your message contains content that is not allowed.

拒否トピック

拒否トピックでは、ジーニーが議論すべきでない主題を定義できます。検出はキーワードマッチングではなく意味的理解を使用し、拒否トピックの言い換えや間接的な参照をキャッチします。ジーニーごとに最大 30 個の拒否トピックを定義できます。

各トピックには名前と自然言語による定義が必要です。また、検出精度を向上させるため、トピックごとに最大 5 つの例示クエリを追加できます。

トピック名定義ブロックされるクエリの例
競合製品競合製品、価格、または機能に関するディスカッションHow does this compare to ServiceNow?
法的助言具体的な法的推奨事項を提供することShould I dispute this contract?
医学的診断具体的な医学的診断または治療計画を提供することWhat medication should I take?

拒否トピックが検出されると、ジーニーの実行が停止し、ユーザーには以下のメッセージが表示されます:I'm not able to discuss this topic.

デバッグトレース

すべてのガードレール評価は、会話のデバッグトレースで Input Guardrails または Output Guardrails というステップ名の下に表示されます。各エントリには、ガードレールのタイプ、合格/不合格のステータス、却下理由、評価時間が表示されます。

検出された PII の値は決して平文で保存されません。マスクされた値は、デバッグトレースと会話履歴に以下の形式で表示されます。

PII タイプマスク表示
SSN[SSN:***-**-6789]
クレジットカード[CARD:****-****-****-1111]
銀行口座[BANK_ACCT:*****8901]
API キー[API_KEY:sk-***]
メール[EMAIL:j***@***.com]
電話[PHONE:***-4639]
氏名[NAME:J*** S***]
カスタム正規表現[CUSTOM_PII:***]

ガードレールを始める

Agent Studio の任意のジーニーにガードレールを追加できます。このセクションの手順は、Workato にサインインしており、ガードレールを追加する予定のジーニーをすでに作成していることを前提としています。

ジーニーにガードレールを追加するには、以下の手順を実行します。

1

Guardrails フィールドに移動し、歯車(編集)アイコンをクリックして構成ページを開きます。

2

サイドバーの Guardrails に移動し、Content safety をクリックします。

3
コンテンツ安全ガードレールを構成します。
1

Prompt attack 設定を確認し、必要に応じて感度を低または中に設定します。Prompt attack はデフォルトで高感度に設定されています。

2

Harmful content セクションに移動し、必要に応じて以下のカテゴリの感度を低または中に設定します。

カテゴリ説明
ヘイトスピーチ人種、宗教、性別、国籍、その他の保護された属性に基づいて人々を貶めるコンテンツです。
侮辱個人やグループに向けた侮蔑的または軽蔑的な言葉。いじめ、辱め、言葉による攻撃を含みます。
性的コンテンツ露骨または示唆的な性的素材。通常の使用で職業的な健康や安全のトピックが想定されるジーニーには Low を使用します。
暴力身体的危害、脅迫、または生々しいコンテンツの描写です。この設定は、応急処置や職場の危険報告などの事実に基づく安全情報には影響しません。
不正行為詐欺、犯罪行為、不正なシステムアクセス、または個人や組織を標的とするその他の有害な行動を助長するコンテンツです。
3

Save をクリックします。

4
データ保護ガードレールを構成します。
1

サイドバーの Data protection をクリックします。

2

Detect PII トグルをクリックして、個人を特定できる情報(PII)のガードレールを有効にします。

3

PII types to detect ドロップダウンメニューを使用して、ガードレールを適用する PII タイプを選択します。

4

オプション。Hide custom PII types セクションを展開し、カスタム正規表現パターンを追加します。

5

When PII is detected セクションに移動し、PII データに対するジーニーの応答方法を選択します。

6

Save をクリックします。

5
トピックと単語フィルターのガードレールを構成します。
1

サイドバーの Topics & word filters をクリックします。

2

+ Add a topic をクリックして、ジーニーが議論すべきでない特定のトピックを定義します。拒否トピックは意味的マッチングを使用します。

3

Topic name フィールドに名前を入力します。

4

オプション。Description フィールドにトピックの説明を入力します。

5

+ Add a sample phrase をクリックして、ジーニーがこのトピックを認識するのに役立つユーザー入力の例を提供します。サンプルフレーズは最大 5 個まで追加できます。

6

Save をクリックします。

7

Blocked words and phrases セクションに移動します。

8

Profanity filter トグルをクリックして、ジーニーが冒涜表現をフィルタリングできるようにします。

9

Custom blocked words フィールドに移動し、ジーニーにブロックさせる単語またはフレーズを入力します。単語またはフレーズはカンマ区切りで、大文字小文字を区別します。例:Confidential, internal only, Private

10

Save をクリックします。

ガードレールをテストする

Test モードでガードレールをテストできます。テストにより、本番環境に移行する前に、ジーニーが適切に応答するようにガードレールを改善できます。

ガードレールをテストするには、以下の手順を実行します。

1

モードトグルをクリックして、Build から Test に切り替えます。

2

構成した拒否トピックに該当するフレーズや質問を入力します。

拒否トピックガードレール拒否トピックガードレールの例

3

ジーニーがそのトピックの議論を拒否することを確認します。

Test モードの拒否トピックTest モードの拒否トピック

4

オプション。Guardrails > Topic & word filters > Denied topics に戻り、サンプルフレーズを改善するか、サンプルフレーズを追加してジーニーの応答を改善します。

Last updated: