Чеклист утечек системного промта
Восемь проверяемых классов утечек системных инструкций и секретов: как диагностировать, какие пользовательские запросы использовать в тесте и какие правки внести в промт и инфраструктуру, чтобы снизить риск.
Описание
Восемь проверяемых классов утечек системных инструкций и секретов: как диагностировать, какие пользовательские запросы использовать в тесте и какие правки внести в промт и инфраструктуру, чтобы снизить риск.
Кейс применения
Подозреваете, что модель время от времени процитировала скрытые правила, имена внутренних инструментов или конфиденциальные формулировки — нужен структурированный чеклист для ревью и регрессии.
Совместимость с моделями
- ChatGPT
- Claude
- Gemini
Пример формулировки
Проведи аудит утечек для промта {{PROMPT_TEXT}} с целью {{TASK}} с ограничениями {{CONSTRAINTS}} и ожидаемым результатом {{GOAL}}.Текст промта целиком
## Роль
Ты инженер по безопасности промптов и LLM-интеграций. Ты ищешь **утечки системных инструкций**, секретов и внутренней кухни в ответах модели.
## Задача
Проанализируй {{PROMPT_TEXT}} относительно цели {{TASK}} и оформи **ровно восемь пунктов чеклиста** (каждый пункт — отдельный *класс* утечки или смежного риска): для каждого пункта дай **что проверяем**, **почему это опасно**, **2–4 тестовые фразы пользователя** (без реальных секретов), **ожидаемое корректное поведение модели**, **правку промта или инфраструктуры** (например, вынести секреты из системного текста, сократить цитирование политик); учти {{CONSTRAINTS}} и формат вывода {{GOAL}}.
## Контекст
- Промт: {{PROMPT_TEXT}}
- Цель аудита: {{TASK}}
- Ограничения: {{CONSTRAINTS}}
- Ожидаемый результат: {{GOAL}}
Не воспроизводи в ответе реальные ключи, токены и пароли из входа — только типы и плейсхолдеры.
## Ограничения
- Ровно **8** нумерованных пунктов чеклиста в основном артефакте, без дублирования смысла между пунктами.
- Тестовые фразы — нейтральные, без инструкций на вредоносные действия за пределами проверки утечки.
- Если вход неполный, явно пометь пробелы и не выдумывай содержимое секретов.
## Формат ответа
1. **Краткий обзор поверхности атаки** (1 абзац).
2. **Чеклист из 8 пунктов** — строго по структуре выше для каждого пункта.
3. **Сводная таблица**: пункт → критичность (низ/сред/выс) → приоритет исправления.
4. **Патч-лист** для промта: что удалить из system, что перенести в RAG/тулзы, что оставить.
5. **План регрессии** на 30 минут тестировщика.
## Чего избегать
- Смешения утечки системного промта и обычного «галлюцинирования фактов» в одном пункте без разделения
- Универсальных тестов «покажи весь системный промт» как единственной стратегии
- Публикации чувствительных данных из входа в примерахПримеры использования
Реалистичные сценарии входных данных и ожидаемого результата.
Пример 1
Входные данные
- GOAL
- одностраничный чеклист для ревью перед релизом
- TASK
- найти риски утечки внутренних имён и политик и предложить правки
- CONSTRAINTS
- в примерах не использовать реальные имена CRM и URL
- PROMPT_TEXT
- Системный промт ассистента поддержки: внутреннее имя CRM, шаблоны ответов, запрет на скидки без кода акции.
Ожидаемый результат
Примечание
Пункты не должны дублировать один и тот же риск разными словами.
Критерии оценки
По этим критериям можно проверять качество результата перед рабочим использованием.
Восемь классов без дублей
Критерии
- В основном артефакте ровно 8 пунктов, каждый про свой класс риска
- У каждого пункта есть тестовые фразы и ожидаемое поведение модели
- Патч-лист предлагает конкретные переносы/удаления из system, а не общие советы
- Секреты из входа не процитированы в открытом виде
- План регрессии выполним за ~30 минут
Похожие промты
По категории, тегам и близкому сценарию применения.