Рубрика оценки ответа по шкале 0–3
Строит компактную рубрику 0–3 по каждому критерию для ручной или полуавтоматической оценки ответов модели под вашу задачу: определения уровней, якорные примеры и шаблон короткого отчёта без тяжёлой методики.
Описание
Строит компактную рубрику 0–3 по каждому критерию для ручной или полуавтоматической оценки ответов модели под вашу задачу: определения уровней, якорные примеры и шаблон короткого отчёта без тяжёлой методики.
Кейс применения
Команда хочет быстро согласовать «что считаем хорошим ответом» для конкретного промта и прогонять черновики по одной странице критериев перед релизом или A/B.
Совместимость с моделями
- ChatGPT
- Claude
- Gemini
Пример формулировки
Собери рубрику 0–3 для ответов по промту {{PROMPT_TEXT}} при задаче оценки {{TASK}} с ограничениями {{CONSTRAINTS}} и целью проверки {{GOAL}}.Текст промта целиком
## Роль
Ты ведущий по качеству промптов и оценке LLM: ты проектируешь **лёгкие рубрики** с дискретной шкалой 0–3, чтобы команда одинаково понимала «плохо / ок / хорошо / отлично» без тяжёлой методички.
## Задача
По входному {{PROMPT_TEXT}} и фокусу {{TASK}} спроектируй **рубрику из 5–8 критериев**, для каждого — **определения уровней 0, 1, 2, 3** (по 1–2 предложения на уровень), **якорный пример ответа** или короткий фрагмент для уровней 0 и 3 (без выдумывания реальных клиентских данных), **вес критерия** (сумма 100%) с обоснованием в одной строке, и **шаблон отчёта ревьюера** на 5–7 строк; учти {{CONSTRAINTS}} и цель процесса {{GOAL}}.
## Контекст
- Текст промта: {{PROMPT_TEXT}}
- Фокус оценки: {{TASK}}
- Ограничения: {{CONSTRAINTS}}
- Цель процесса: {{GOAL}}
Если промт слишком общий, сначала предложи **уточняющие вопросы** заказчику рубрики (до пяти), затем черновик рубрики с пометкой «гипотеза до уточнения».
## Ограничения
- Шкала строго **0–3**, без дробей и без «NA».
- Критерии должны быть **наблюдаемыми** по тексту ответа модели, а не «качество в целом».
- Не добавляй критерии, которые противоречат {{CONSTRAINTS}}.
## Формат ответа
1. **Краткий разбор промта** (4–6 предложений): что модель обязана делать и где типичные провалы.
2. **Таблица критериев** — столбцы: критерий, вес %, почему важен для {{TASK}}.
3. **Для каждого критерия** — блок: 0 / 1 / 2 / 3 с формулировками и якорями.
4. **Шаблон отчёта** — строки: итоговая оценка, спорные места, что править в промте.
5. **Мини-гайд для асессоров** (6 пунктов): как не смешивать вкущину и фактическую ошибку.
## Чего избегать
- Критериев уровня «грамотность» без привязки к {{TASK}}
- Слишком длинных якорных примеров вместо чётких границ уровней
- Весов без суммы 100% или с произвольными дробямиПримеры использования
Реалистичные сценарии входных данных и ожидаемого результата.
Пример 1
Входные данные
- GOAL
- единый стиль ревью перед обновлением промта в проде
- TASK
- проверять соблюдение шаблона, отсутствие выдуманных статусов заказа и нейтральный тон
- CONSTRAINTS
- не штрафовать за краткость, если шаблон соблюдён
- PROMPT_TEXT
- Ты ассистент поддержки маркетплейса: отвечай по шаблону «статус — действие — срок» не более четырьмя предложениями.
Ожидаемый результат
Примечание
Якорные примеры не должны содержать вымышленные номера заказов.
Критерии оценки
По этим критериям можно проверять качество результата перед рабочим использованием.
Рубрика 0–3 применима к ответам
Критерии
- У каждого критерия есть четыре уровня 0–3 с различимыми границами
- Веса критериев в сумме дают 100% и согласованы с {{TASK}}
- Критерии наблюдаемы по тексту ответа, без «качества в целом»
- Шаблон отчёта ревьюера помогает править промт, а не только ставить оценку
- Соблюдены {{CONSTRAINTS}} и цель {{GOAL}}
Похожие промты
По категории, тегам и близкому сценарию применения.