メインコンテンツへスキップこのドキュメントでは、Claude、Gemini、GPT-4o、Sonar、Fal AI などのさまざまなマルチモーダル AI モデルからの出力を微調整するために、Giselle のジェネレーター ノード内で設定できる一般的な生成パラメーター(「生成パラメーター」)の詳細な概要を提供します。
生成パラメーターの定義と可用性は、AI プロバイダーと特定のモデルによって異なる場合があることにご注意ください。また、Giselle は現在、各プロバイダーの API でサポートされているすべてのパラメーターを実装しているわけではありません。このドキュメントは主に、使用可能なパラメーターの一般的な定義と典型的な使用法を扱っています。Giselle でサポートしてほしいパラメーターの提案がございましたら、お気軽にお問い合わせください。
一般的な AI パラメーター
Temperature
- 定義: テキストまたは画像生成におけるランダム性を制御します。
- 範囲: 0(ランダム性が低く、決定論的)から 1(非常にランダムで創造的)。
- 推奨使用法:
- 低い値(0–0.3):正確で事実に基づく出力。
- 高い値(0.7–1.0):創造的または探索的な出力。
Top-p(Nucleus Sampling)
- 定義: 累積確率が閾値(p)を超える最小のセットにトークン選択を制限します。
- 範囲: 通常 0.0 から 1.0。
- 推奨使用法:
- 低い値(0.7–0.9):焦点を絞った一貫した出力。
- 高い値(~1.0):より広範囲で多様なコンテンツ生成。
Max Tokens
- 定義: 応答で生成されるトークンの最大数。
- 推奨使用法:
- 希望する応答の長さと API/モデルのトークン制限に基づいて調整。
- コスト管理とリソース最適化に不可欠。
テキスト固有のパラメーター
Frequency Penalty
- 定義: 反復されたトークンにペナルティを課すことで反復を減らします。
- 範囲: 通常 0.0(ペナルティなし)から 1.0(強いペナルティ)。
- 推奨使用法:
Presence Penalty
- 定義: 以前に使用されたトークンにペナルティを課すことで新しいコンテンツを促進します。
- 範囲: 通常 0.0(ペナルティなし)から 1.0(強いペナルティ)。
- 推奨使用法:
Stop Sequences
- 定義: モデルが生成を停止すべき場所を示すトークンまたはフレーズ。
- 推奨使用法:
- 構造化されたまたは部分的な出力が必要な場合に明確に定義。
画像生成パラメーター
Guidance Scale
- 定義: 生成された画像が提供されたプロンプトにどれだけ忠実に従うかに影響します。
- 範囲: 通常 1(厳密でない遵守)から 20(非常に厳密な遵守)。
- 推奨使用法:
- 低い値:探索的で抽象的な出力。
- 高い値:プロンプトへの正確で詳細な遵守。
Inference Steps
- 定義: 拡散プロセスのステップ数。
- 推奨使用法:
- 低い値(flux/schnell で 1–4 ステップ):迅速なプロトタイピング。
- 高い値(stable-diffusion で ~28 ステップ):詳細で高品質な画像。
マルチモーダル パラメーター
Context Window
- 定義: モデルが一度に「記憶」または処理できる最大トークン数。
- 典型的な値:
- Gemini: 最大 1M トークン。
- GPT-4o: 128k トークン。
- Claude: 最大 200k トークン。
- 推奨使用法:
- 大規模な文書、マルチモーダル データ分析、詳細な理解を必要とするタスクには、より大きなコンテキストウィンドウを使用。
- 定義: モデルがサポートする入力タイプ(テキスト、画像、音声、動画)。
- モデル:
- Gemini 2.5 Pro と GPT-4o は広範なマルチモーダル入力をサポート。
- 必要な入力モダリティに基づいてモデルを選択。
ウェブ検索パラメーター
Grounding
- 定義: モデルがリアルタイムのウェブ検索結果を生成された応答に組み込むことを可能にします。
- 推奨使用法:
- 最新で事実に基づく研究タスクまたは情報クエリに対して有効化。
Giselle での実用的な推奨事項
- 実験と調整: タスク固有の結果に基づいてパラメーターを定期的に調整。
- ノード統合: チェーンされたノード全体でパラメーターを戦略的に使用してワークフローの効果を最大化。
- 設定の明確な文書化: チームの明確性と再現性のために、Giselle ワークフロー内で選択したパラメーター設定を明確に文書化。