ナレッジベースの設定
ナレッジベースコンポーネントは、Genieのメモリとして機能します。 最適なパフォーマンスを確保するには、ナレッジベースを正しく設定する必要があります。 正確で詳細なナレッジベースの説明により、Genieの情報取得が向上します。 ドキュメントの準備によって、ナレッジベースの情報取得を向上させることもできます。
ナレッジベースの説明
作成する各ナレッジベースについて、詳細な説明を指定する必要があります。 正確な説明は、Genieが情報の範囲と関連性を判断するのに役立ち、応答の精度とコンテキストの関連性が向上します。
ナレッジベースドキュメントの準備
ナレッジベースは、ドキュメントからすべてのデータと関連するメタデータを受け取ります。 準備が不十分なドキュメントは、取得品質を低下させます。 Genieは、関連性のないコンテンツを返したり、重要な情報を見逃したり、書式設定ノイズを含むテキストを表示したりする可能性があります。
未準備のドキュメントでは、通常、次のGenie取得動作が発生します。
- 正しいドキュメントを見つけられない
- 正しいドキュメントを返すが、情報が不足している
- 関連情報を取得できない
- コンテキストが不足している、または途中で内容が途切れる長いドキュメントを返す
たとえば、50ページの製品マニュアルを1つのPDFとしてアップロードするとします。 ユーザーがWhat's the return policy?と質問します。 Genieは23ページの中央にあるセクションを取得しますが、そのセクションは文の途中から始まり、ヘッダーやフッターのアーティファクトを含んでいるため、12ページにある実際のポリシーステートメントを見逃します。
これは、Workatoナレッジベースが重複のない8,000文字のチャンクを使用するために発生します。 システムは最も関連性の高い10件のドキュメントを見つけ、その後、それらのドキュメント内のチャンクを返します。 コンテンツがシステムの取得パターンに合わせて構造化されていない場合、返されるチャンクにはコンテキストが不足していたり、応答品質を低下させるノイズが含まれていたりする可能性があります。
ドキュメントの準備は、次の状況で最も重要です。
- ドキュメントが10,000文字を超える長さで、自動的にチャンク化される場合。
- コンテンツに、情報取得を妨げる書式設定要素または構造要素が含まれている場合。
- ソースコンテンツにJSONやCSVなど、人間が読める形式にする必要がある構造化データが含まれている場合。
- 取得品質がユースケースにとって重要である場合。
- コンテンツがAPIを使用するアプリから取得されている場合。
ドキュメント準備のベストプラクティス
ドキュメントの準備には、次の一般的なベストプラクティスがあります。
- 複数のトピックを扱う大きなドキュメントよりも正確かつ迅速に情報を取得できるように、ドキュメントごとに1つのトピックに集中させます。
- 最も重要なコンテンツを先頭の2,000文字以内に配置して重要な情報を前方に置くことで、そのコンテンツが取得されたチャンクに含まれる可能性を高めます。
- セマンティックマッチングを向上させるために、明確で説明的なタイトルを使用します。 例:
Policy_v3_final.pdfよりもQ3 2024 Return Policy - Electronicsの方が良い結果を返します。 - 取り込み後、ユーザーが尋ねる質問を使用してコンテンツ取得をテストし、情報取得のパフォーマンスが低い場合はドキュメントをさらに編集します。
- プロセスを改善するために、数百件を一括アップロードする前に、十分に準備された5~10件のドキュメントを使用して小規模にドキュメントの準備を開始します。
PDFおよび構造化ドキュメントの準備
簡単に取得できるクリーンで自己完結型のチャンクを作成するには、取り込み前にドキュメントを前処理する必要があります。 各チャンクはスタンドアロンの項目として意味を成し、エージェントが応答で直接使用できるコンテンツを含んでいる必要があります。
Workatoナレッジベースに取り込むドキュメントを準備するには、次の手順を実行します。
ドキュメントのコンテンツを確認し、タグや装飾線などの書式設定アーティファクトを削除します。
次のポイントで、コンテンツを8kの情報チャンクに分割します。
- H1/H2/H3見出し: 各主要セクションをそれぞれ独自のチャンクに分割します。
- 番号付きセクション: 1.0、2.0などの各番号付きセクションを、それぞれ独自のチャンクに分割します。
- 改行: コンテンツをチャンクに分割できる場所を判断するために、改行を見つけます。 ドキュメントの取り込み前に改行を削除します。
セマンティックマッチングを向上させ、コンテキストを改善するために、メタデータを追加し、From [Document Name] - [Section Title]:など、各チャンクのセクションヘッダーにコンテキストを追加します。
過剰な空白を削除します。
改行を削除します。
想定される質問で正しいチャンクが取得されることを確認するには、Genieをテストします。
HTMLおよびWebコンテンツの準備
簡単に取得できるクリーンで自己完結型のチャンクを作成するには、取り込み前にHTMLおよびWebコンテンツを前処理する必要があります。
Workatoナレッジベースに取り込むHTMLまたはWebコンテンツを準備するには、次の手順を実行します。
コンテンツからすべてのHTMLタグを削除します。
サイドバーや目次などのナビゲーション要素を削除します。
段落構造をプレーンテキストとして保持します。
見出しでプレーンテキストマーカーを使用していることを確認します。 例: ## Section Name。
JSONおよびAPIアプリケーションデータの準備
簡単に取得できるクリーンで自己完結型のチャンクを作成するには、取り込み前にJSONおよびAPIアプリケーションデータを前処理する必要があります。
ナレッジベースとデータベースのユースケースは異なります
Find similar support ticketsやWhat issues have we seen like this?などのセマンティック検索を使用する予定がある場合は、ナレッジベースを使用します。 チケット、CRMレコード、注文など、アプリから構造化データを取得する予定がある場合、またはフィルターでクエリしたり、件数を取得したり、包括的なリストを取得したりする予定がある場合は、ナレッジベースを使用しないでください。 Workatoでは、これらのシナリオにデータベースを使用することをお勧めします。 詳細については、ナレッジベースとデータベースの比較を参照してください。
Workatoナレッジベースに取り込むJSONおよびAPIデータを準備するには、次の手順を実行します。
生のJSONを読みやすい文章に変換します。 生のJSONはアップロードしないでください。 例:
生のJSON
{"ticket_id": "12345", "status": "open", "customer": "Acme Corp", "issue": "Login timeout", "created": "2024-01-15"}文章
Support Ticket #12345 for Acme Corp - Login timeout issue
Status: Open | Created: January 15, 2024
Customer reported experiencing timeout errors when attempting to log in to the portal. Issue occurs intermittently, primarily during morning hours.複数のチケットやケースを1つのドキュメントに結合していないことを確認します。 1レコード=1ドキュメント。
各レコードの文章にコンテキストを追加し、スタンドアロンのドキュメントとして関連情報が含まれるようにします。
通話記録と会議メモの準備
簡単に取得できるクリーンで自己完結型のチャンクを作成するには、取り込み前に通話記録と会議メモを前処理する必要があります。 記録には会話のコンテキストがあるため、特別な考慮が必要です。 たとえば、個々の発言者ごとにコンテンツを分割すると、質問と回答の関係が失われます。
記録と会議メモには、次のベストプラクティスガイドラインがあります。
- 生の記録をアップロードしないでください。
- 8kの自動チャンク化によってコンテンツが任意に分割されないようにしてください。
- 会話の流れが失われるため、個々の発言者ごとにコンテンツを分割しないでください。
- あいさつ、保留音のメモ、雑談など、チャンクのスペースを浪費するつなぎのコンテンツを含めないでください。
Workatoナレッジベースに取り込む通話記録と会議メモを準備するには、ユースケースに基づいて次のいずれかのアプローチを実行します。
会話ターンウィンドウ
このアプローチは、サポートコールや、短いやり取りで構成されるその他の質問と回答の会話に最適です。
会話ターンウィンドウアプローチを使用してWorkatoナレッジベースに取り込む通話記録と会議メモを準備するには、次の手順を実行します。
連続する発言者のターンを5~7個ずつ各チャンクにグループ化します。
質問と回答を同じチャンクにまとめます。
チャンクにヘッダーを追加します。 例: Call with [Customer] on [Date] - Topic: [Subject]。
トピックベースのセグメント
このアプローチは、複数のテーマを扱う長めの議論、戦略コール、会議に最適です。
トピックベースのセグメントアプローチを使用してWorkatoナレッジベースに取り込む通話記録と会議メモを準備するには、次の手順を実行します。
発言者が変わったときではなく、会話のトピックが変わったときにコンテンツをチャンクに分割します。
各チャンクが1つの完全なトピックスレッドを扱っていることを確認します。
手動レビューまたはキーワード検出検索を実行して、新しいチャンクが始まる会話の切り替わりを特定します。
要約ドキュメント
このアプローチは、大量の記録や、逐語的な引用が重要でない場合に最適です。 要約は、断片化された記録チャンクよりも取得品質が高いことがよくあります。
ドキュメント要約アプローチを使用してWorkatoナレッジベースに取り込む通話記録と会議メモを準備するには、次の手順を実行します。
各通話について500~1,000語の要約を作成します。 AIを使用してこのプロセスを効率化したり、Gongなどの一部のソースアプリによって生成された要約を使用したりできます。 主要な決定事項、アクション項目、話し合われた主なトピック、参加者名を含める必要があります。
任意です。 IDを基にソースから通話記録を取得するスキルを追加します。
要約と主要なやり取り
このハイブリッドアプローチは、一般的な検索と特定の引用の検索に最適です。
要約と主要なやり取りのアプローチを使用してWorkatoナレッジベースに取り込む通話記録と会議メモを準備するには、次の手順を実行します。
一般的な取得用に要約ドキュメントをアップロードします。
重要な質問と回答のやり取りを逐語的に強調する2~3個の個別チャンクを作成してアップロードします。 これにより、コンテキストと具体性が得られます。
任意です。 IDを基にソースから通話記録を取得するスキルを追加します。
メール、メモ、Slackエクスポートの非構造化テキスト
簡単に取得できるクリーンで自己完結型のチャンクを作成するには、取り込み前に、メール、メモ、Slackエクスポートなど、明確な構造を持たないその他のコンテンツなどの非構造化テキストを前処理する必要があります。
Workatoナレッジベースに取り込む非構造化テキストを準備するには、次の手順を実行します。
二重改行または段落の境界でコンテンツを分割します。
8kの制限を安全に下回るように、チャンクが約4,000~5,000文字になるようにします。
可能な場合は、日付、作成者、件名、トピックなどのコンテキストを追加します。
Last updated: