ドキュメントベクターストアノード

ドキュメントベクターストアノードがベクター埋め込みを使用して文書をアップロード・検索し、Giselle ワークフローで AI による検索を可能にする方法を学びます。

Giselle のドキュメントベクターストアノードが、文書をアップロードし、検索可能なベクター埋め込みに処理し、AI ワークフロー内でクエリすることで、Retrieval-Augmented Generation (RAG) を可能にする方法を学びます。

Giselle のドキュメントベクターストアノード

ドキュメントベクターストアノードは、アップロードされた文書から強力で検索可能なナレッジベースを作成する特殊な「変数ノード」です。PDF、テキストファイル、マークダウンなどの文書をベクター埋め込みに処理することで動作し、AI モデルがセマンティック検索を実行し、質問への回答や応答生成のための関連コンテキストを取得できるようにします。

このプロセスでは、先進的な埋め込みモデルを使用して文書コンテンツをベクター埋め込みに変換します。OpenAI の text-embedding-3-small（1536次元）や text-embedding-3-large（3072次元）など、複数の埋め込みモデルから選択できます。これらのベクトル化されたデータは、Giselle の専用ベクターストアに安全に保存されます。

ドキュメントベクターストアの設定:

ワークフローでドキュメントベクターストアノードを使用する前に、チーム設定でベクターストアを作成・設定する必要があります：

ベクターストア設定に移動:
- Giselle アカウントで 設定 > チーム > ベクターストア に移動します。
- こちらでアクセスできます：https://studio.giselles.ai/settings/team/vector-stores/document。
新しいドキュメントベクターストアを作成:
- ボタンをクリックして新しいドキュメントベクターストアを作成します。
- ベクターストアのわかりやすい名前を入力します（例：「会社ドキュメント」や「製品マニュアル」）。
ドキュメントをアップロード:
- ベクターストアを作成した後、アップロード領域をクリックするか、ファイルをドラッグ＆ドロップして文書をアップロードできます。
- サポートされるファイルタイプ: PDF（.pdf）、テキスト（.txt）、マークダウン（.md）
- 最大ファイルサイズ: ファイルあたり 4.5MB
- 包括的なナレッジベースを構築するために、複数の文書をアップロードできます。
ドキュメントの処理:
- アップロードされると、文書は自動的にいくつかの段階を経て処理されます：
- テキスト抽出: PDF からテキストが抽出され、テキストファイルからデコードされます。
- チャンキング: コンテンツは管理可能なチャンクに分割されます（チャンクあたり最大150行または6000文字、30行のオーバーラップあり）。
- 埋め込み生成: 各チャンクは、選択された埋め込みモデルを使用してベクター埋め込みに変換されます。
- ストレージ: 埋め込みは、高速類似度検索のために HNSW（Hierarchical Navigable Small World）インデックスとともに保存されます。
処理ステータスの確認:
- 各文書のステータスが表示されます：保留中、処理中、準備完了、または失敗。
- ワークフローでベクターストアを使用する前に、文書が「準備完了」ステータスになるまで待ちます。

ワークフローへのドキュメントベクターストアノードの追加:

ノードを追加:
- キャンバス下部のツールバーから、変数アイコンをクリックします。
- ポップアップメニューから ドキュメントベクターストア を選択して、ノードを Workspace に追加します。
ベクターストアの設定:
- 最初に追加されたとき、ノードは「設定が必要」ステータスを表示します。
- ノードを選択して、右側の設定パネルを開きます。
- ベクターストアを選択 ドロップダウンメニューをクリックし、先ほど作成したドキュメントベクターストアを選択します。
埋め込みプロファイルを選択:
- ベクターストアを選択した後、クエリに使用する埋め込みモデルを選択します。
- これは、文書が処理されたときに使用された埋め込みプロファイルの1つと一致する必要があります。
- 通常、以下のオプションが利用可能です：
- text-embedding-3-small: 1536次元 - 効率的で、ほとんどのユースケースに適しています。
- text-embedding-3-large: 3072次元 - 複雑なセマンティック理解により高い精度を提供します。
設定の完了:
- 設定が完了すると、キャンバス上のノードが更新されて選択されたベクターストアの名前が表示されます。
- これでノードは、ワークフロー内の他のノードに接続する準備が整いました。

サポートされるファイルタイプ

ドキュメントベクターストアは複数のファイルタイプをサポートしており、それぞれ特定のサイズ制限があります：

ファイルタイプ	対応形式	最大サイズ	一般的な用途
PDF	`.pdf`	4.5MB	ドキュメント、レポート、マニュアル、記事
テキスト	`.txt`	4.5MB	プレーンテキスト文書、ログ、トランスクリプト
マークダウン	`.md`	4.5MB	技術ドキュメント、README ファイル、ノート

ワークフローでの使用

Document Vector Store Node は、Vector Query Node と組み合わせて使用するように設計されています。Vector Query Node が検索するナレッジベースとして機能します。

出力を接続: Document Vector Store Node の「出力」を Vector Query Node の入力に接続する必要があります。
検索の実行: Vector Query Node は、ユーザーの質問や動的な入力を受け取り、ベクトル化された文書コンテンツから最も関連性の高い情報を検索し、その情報を後続のノード（Generator Node など）に渡して処理、分析、または要約を行います。

ワークフローの例:

[Text Node: 「安全ガイドラインは何ですか？」]
         ↓
[Vector Query Node] ←── [Document Vector Store Node]
         ↓
[Generator Node: 検索結果に基づいて安全ガイドラインを要約]

クエリパラメータ

Document Vector Store で Vector Query Node を使用する際、以下を設定できます：

最大結果数: 返す文書チャンクの最大数（デフォルト: 20、最大: 100）。
類似度しきい値: 結果のための最小コサイン類似度スコア（デフォルト: 0.3、範囲: 0-1）。値が高いほど、より関連性の高い結果のみが返されます。

ノードの出力

Document Vector Store Node の出力は、アップロードされた文書のベクトル化されたデータへの参照です。この出力は、Vector Query Node などの他のノードが文書コンテンツにアクセスして検索するために必要な接続を提供します。

ドキュメントベクターストアの管理

チーム設定ページから、すべてのドキュメントベクターストアを管理できます：

ドキュメントを追加: 既存のベクターストアに追加の文書をアップロードします。
ステータスを確認: 各文書の処理ステータスを表示します。
ドキュメントを削除: 不要になった文書を削除します。
ベクターストアを削除: 使用しなくなったベクターストア全体を削除します。

技術的考慮事項

ファイルサイズ制限: プラットフォームの制約により、文書あたりの最大ファイルサイズは 4.5MB です。
処理時間: 大きな文書や複数の同時アップロードは、処理に時間がかかる場合があります。
埋め込みの一貫性: 最適な検索結果を得るために、文書の取り込み時に使用されたものと同じ埋め込みプロファイルをクエリ時に使用してください。
並行処理: システムはアトミッククレームメカニズムを通じて重複処理を防ぎ、各文書が一度だけ処理されることを保証します。

エラー処理

文書の処理が失敗した場合、考えられる理由は次のとおりです：

サポートされていないファイルタイプ: ファイルが PDF、TXT、または MD 形式であることを確認してください。
ファイルが大きすぎる: 4.5MB を超えるファイルはアップロードに失敗します。
抽出失敗: 非標準のエンコーディングや破損がある PDF は、テキスト抽出中に失敗する可能性があります。
処理エラー: 埋め込み生成中のネットワークの問題やシステムエラー。

エラーが発生した場合は、文書を再アップロードするか、問題が解決しない場合はサポートにお問い合わせください。

ドキュメント ベクター ストア ノード

このページの内容

ドキュメントベクターストアノード