メインコンテンツへスキップ
Giselle のドキュメント ベクター ストア ノードが、文書をアップロードし、検索可能なベクター埋め込みに処理し、AI ワークフロー内でクエリすることで、Retrieval-Augmented Generation (RAG) を可能にする方法を学びます。

Giselle のドキュメント ベクター ストア ノード

ドキュメント ベクター ストア ノードは、アップロードされた文書から強力で検索可能なナレッジベースを作成する特殊な「変数ノード」です。PDF、テキストファイル、マークダウンなどの文書をベクター埋め込みに処理することで動作し、AI モデルがセマンティック検索を実行し、質問への回答や応答生成のための関連コンテキストを取得できるようにします。 このプロセスでは、先進的な埋め込みモデルを使用して文書コンテンツをベクター埋め込みに変換します。OpenAI の text-embedding-3-small(1536次元)や text-embedding-3-large(3072次元)など、複数の埋め込みモデルから選択できます。これらのベクトル化されたデータは、Giselle の専用ベクター ストアに安全に保存されます。

ドキュメント ベクター ストアの設定:

ワークフローでドキュメント ベクター ストア ノードを使用する前に、チーム設定でベクター ストアを作成・設定する必要があります:
  1. ベクター ストア設定に移動:
  2. 新しいドキュメント ベクター ストアを作成:
    • ボタンをクリックして新しいドキュメント ベクター ストアを作成します。
    • ベクター ストアのわかりやすい名前を入力します(例:「会社ドキュメント」や「製品マニュアル」)。
  3. ドキュメントをアップロード:
    • ベクター ストアを作成した後、アップロード領域をクリックするか、ファイルをドラッグ&ドロップして文書をアップロードできます。
    • サポートされるファイル タイプ: PDF(.pdf)、テキスト(.txt)、マークダウン(.md
    • 最大ファイル サイズ: ファイルあたり 4.5MB
    • 包括的なナレッジベースを構築するために、複数の文書をアップロードできます。
  4. ドキュメントの処理:
    • アップロードされると、文書は自動的にいくつかの段階を経て処理されます:
    • テキスト抽出: PDF からテキストが抽出され、テキストファイルからデコードされます。
    • チャンキング: コンテンツは管理可能なチャンクに分割されます(チャンクあたり最大150行または6000文字、30行のオーバーラップあり)。
    • 埋め込み生成: 各チャンクは、選択された埋め込みモデルを使用してベクター埋め込みに変換されます。
    • ストレージ: 埋め込みは、高速類似度検索のために HNSW(Hierarchical Navigable Small World)インデックスとともに保存されます。
  5. 処理ステータスの確認:
    • 各文書のステータスが表示されます:保留中処理中準備完了、または失敗
    • ワークフローでベクター ストアを使用する前に、文書が「準備完了」ステータスになるまで待ちます。

ワークフローへのドキュメント ベクター ストア ノードの追加:

  1. ノードを追加:
    • キャンバス下部のツールバーから、変数 アイコンをクリックします。
    • ポップアップメニューから ドキュメント ベクター ストア を選択して、ノードをワークスペースに追加します。
  2. ベクター ストアの設定:
    • 最初に追加されたとき、ノードは「設定が必要」ステータスを表示します。
    • ノードを選択して、右側の設定パネルを開きます。
    • ベクター ストアを選択 ドロップダウンメニューをクリックし、先ほど作成したドキュメント ベクター ストアを選択します。
  3. 埋め込みプロファイルを選択:
    • ベクター ストアを選択した後、クエリに使用する埋め込みモデルを選択します。
    • これは、文書が処理されたときに使用された埋め込みプロファイルの1つと一致する必要があります。
    • 通常、以下のオプションが利用可能です:
    • text-embedding-3-small: 1536次元 - 効率的で、ほとんどのユースケースに適しています。
    • text-embedding-3-large: 3072次元 - 複雑なセマンティック理解により高い精度を提供します。
  4. 設定の完了:
    • 設定が完了すると、キャンバス上のノードが更新されて選択されたベクター ストアの名前が表示されます。
    • これでノードは、ワークフロー内の他のノードに接続する準備が整いました。

サポートされるファイル タイプ

ドキュメント ベクター ストアは複数のファイル タイプをサポートしており、それぞれ特定のサイズ制限があります:
ファイル タイプ対応形式最大サイズ一般的な用途
PDF.pdf4.5MBドキュメント、レポート、マニュアル、記事
テキスト.txt4.5MBプレーンテキスト文書、ログ、トランスクリプト
マークダウン.md4.5MB技術ドキュメント、README ファイル、ノート

ワークフローでの使用

ドキュメント ベクター ストア ノードは、クエリ ノード と組み合わせて使用するように設計されています。クエリ ノードが検索するナレッジベースとして機能します。
  • 出力を接続: ドキュメント ベクター ストア ノードの「出力」をクエリ ノードの入力に接続する必要があります。
  • 検索の実行: クエリ ノードは、ユーザーの質問や動的な入力を受け取り、ベクトル化された文書コンテンツから最も関連性の高い情報を検索し、その情報を後続のノード(ジェネレーター ノードなど)に渡して処理、分析、または要約を行います。

ワークフローの例:

[テキスト ノード: 「安全ガイドラインは何ですか?」]

[クエリ ノード] ←── [ドキュメント ベクター ストア ノード]

[ジェネレーター ノード: 検索結果に基づいて安全ガイドラインを要約]

クエリ パラメータ

ドキュメント ベクター ストアでクエリ ノードを使用する際、以下を設定できます:
  • 最大結果数: 返す文書チャンクの最大数(デフォルト: 20、最大: 100)。
  • 類似度しきい値: 結果のための最小コサイン類似度スコア(デフォルト: 0.3、範囲: 0-1)。値が高いほど、より関連性の高い結果のみが返されます。

ノードの出力

ドキュメント ベクター ストア ノードの出力は、アップロードされた文書のベクトル化されたデータへの参照です。この出力は、クエリ ノードなどの他のノードが文書コンテンツにアクセスして検索するために必要な接続を提供します。

ドキュメント ベクター ストアの管理

チーム設定ページから、すべてのドキュメント ベクター ストアを管理できます:
  • ドキュメントを追加: 既存のベクター ストアに追加の文書をアップロードします。
  • ステータスを確認: 各文書の処理ステータスを表示します。
  • ドキュメントを削除: 不要になった文書を削除します。
  • ベクター ストアを削除: 使用しなくなったベクター ストア全体を削除します。

技術的考慮事項

  • ファイル サイズ制限: プラットフォームの制約により、文書あたりの最大ファイル サイズは 4.5MB です。
  • 処理時間: 大きな文書や複数の同時アップロードは、処理に時間がかかる場合があります。
  • 埋め込みの一貫性: 最適な検索結果を得るために、文書の取り込み時に使用されたものと同じ埋め込みプロファイルをクエリ時に使用してください。
  • 並行処理: システムはアトミッククレームメカニズムを通じて重複処理を防ぎ、各文書が一度だけ処理されることを保証します。

エラー処理

文書の処理が失敗した場合、考えられる理由は次のとおりです:
  • サポートされていないファイル タイプ: ファイルが PDF、TXT、または MD 形式であることを確認してください。
  • ファイルが大きすぎる: 4.5MB を超えるファイルはアップロードに失敗します。
  • 抽出失敗: 非標準のエンコーディングや破損がある PDF は、テキスト抽出中に失敗する可能性があります。
  • 処理エラー: 埋め込み生成中のネットワークの問題やシステムエラー。
エラーが発生した場合は、文書を再アップロードするか、問題が解決しない場合はサポートにお問い合わせください。