PromptMap
Red Team#prompt_injection#machine_learning#llm
PromptMapはPrompt Injection攻撃のテストツール。
本ツールは、生成AIおよび生成AI統合アプリの堅牢性を評価するために、これらに対して
Prompt Injection攻撃テストを全自動で実行する。本ツールは開発者がセキュリティ・テストで使用することを想定している。
PromptMapは以下の攻撃テストをサポートする。
・Direct Prompt Injection/Jailbreak
生成AIへのPromptを細工することで、「不正コンテンツ(※1)の生成」や「(生成AIの)学習データの窃取」ができるのか評価する。
※1…「不正コンテンツ」の定義はユーザによって変化するため、予め不正の定義を設定できるようにする(例:暴力的、性的、差別的など)
・Prompt Leaking
生成AI統合アプリへのPromptを細工することで、アプリが実装している(外部公開を意図していない)Prompt Template(※2)を窃取できるのか評価する。
※2…生成AIから意図した回答を引き出すために予め用意したテンプレート文。アプリ提供企業のノウハウや営業秘密などが含まれている場合がある。
・P2SQL Injection
生成AI統合アプリへのPromptを細工することで、生成AI統合アプリと接続したデータベースから情報窃取・改ざん・削除が行えるのか評価する。
Prompt Injection攻撃は既存システムに対する攻撃手法とは原理が異なるものが多く、従来のセキュリティ・テスト手法で耐性を評価することは困難である。
そこで本ツールは、多岐にわたるPrompt Injection攻撃をサポートし、また全自動で実行できるようにすることで、生成AIおよび生成AI統合アプリを開発する方々のセキュリティ・テストに貢献する。