Перейти к содержимому
Отладка и улучшение промтовБесплатноСреднийОценкаv1.1.0

Рубрика оценки ответа по шкале 0–3

Строит компактную рубрику 0–3 по каждому критерию для ручной или полуавтоматической оценки ответов модели под вашу задачу: определения уровней, якорные примеры и шаблон короткого отчёта без тяжёлой методики.

Описание

Строит компактную рубрику 0–3 по каждому критерию для ручной или полуавтоматической оценки ответов модели под вашу задачу: определения уровней, якорные примеры и шаблон короткого отчёта без тяжёлой методики.

Кейс применения

Команда хочет быстро согласовать «что считаем хорошим ответом» для конкретного промта и прогонять черновики по одной странице критериев перед релизом или A/B.

Совместимость с моделями

  • ChatGPT
  • Claude
  • Gemini

Пример формулировки

Собери рубрику 0–3 для ответов по промту {{PROMPT_TEXT}} при задаче оценки {{TASK}} с ограничениями {{CONSTRAINTS}} и целью проверки {{GOAL}}.

Текст промта целиком

## Роль
Ты ведущий по качеству промптов и оценке LLM: ты проектируешь **лёгкие рубрики** с дискретной шкалой 0–3, чтобы команда одинаково понимала «плохо / ок / хорошо / отлично» без тяжёлой методички.

## Задача
По входному {{PROMPT_TEXT}} и фокусу {{TASK}} спроектируй **рубрику из 5–8 критериев**, для каждого — **определения уровней 0, 1, 2, 3** (по 1–2 предложения на уровень), **якорный пример ответа** или короткий фрагмент для уровней 0 и 3 (без выдумывания реальных клиентских данных), **вес критерия** (сумма 100%) с обоснованием в одной строке, и **шаблон отчёта ревьюера** на 5–7 строк; учти {{CONSTRAINTS}} и цель процесса {{GOAL}}.

## Контекст
- Текст промта: {{PROMPT_TEXT}}
- Фокус оценки: {{TASK}}
- Ограничения: {{CONSTRAINTS}}
- Цель процесса: {{GOAL}}

Если промт слишком общий, сначала предложи **уточняющие вопросы** заказчику рубрики (до пяти), затем черновик рубрики с пометкой «гипотеза до уточнения».

## Ограничения
- Шкала строго **0–3**, без дробей и без «NA».
- Критерии должны быть **наблюдаемыми** по тексту ответа модели, а не «качество в целом».
- Не добавляй критерии, которые противоречат {{CONSTRAINTS}}.

## Формат ответа
1. **Краткий разбор промта** (4–6 предложений): что модель обязана делать и где типичные провалы.
2. **Таблица критериев** — столбцы: критерий, вес %, почему важен для {{TASK}}.
3. **Для каждого критерия** — блок: 0 / 1 / 2 / 3 с формулировками и якорями.
4. **Шаблон отчёта** — строки: итоговая оценка, спорные места, что править в промте.
5. **Мини-гайд для асессоров** (6 пунктов): как не смешивать вкущину и фактическую ошибку.

## Чего избегать
- Критериев уровня «грамотность» без привязки к {{TASK}}
- Слишком длинных якорных примеров вместо чётких границ уровней
- Весов без суммы 100% или с произвольными дробями

Примеры использования

Реалистичные сценарии входных данных и ожидаемого результата.

Пример 1

Входные данные

GOAL
единый стиль ревью перед обновлением промта в проде
TASK
проверять соблюдение шаблона, отсутствие выдуманных статусов заказа и нейтральный тон
CONSTRAINTS
не штрафовать за краткость, если шаблон соблюдён
PROMPT_TEXT
Ты ассистент поддержки маркетплейса: отвечай по шаблону «статус — действие — срок» не более четырьмя предложениями.

Ожидаемый результат

Примечание

Якорные примеры не должны содержать вымышленные номера заказов.

Критерии оценки

По этим критериям можно проверять качество результата перед рабочим использованием.

Рубрика 0–3 применима к ответам

Критерии

  • У каждого критерия есть четыре уровня 0–3 с различимыми границами
  • Веса критериев в сумме дают 100% и согласованы с {{TASK}}
  • Критерии наблюдаемы по тексту ответа, без «качества в целом»
  • Шаблон отчёта ревьюера помогает править промт, а не только ставить оценку
  • Соблюдены {{CONSTRAINTS}} и цель {{GOAL}}

По категории, тегам и близкому сценарию применения.

  • Отладка и улучшение промтовБесплатноСредний

    Десять тест-кейсов отказа и эскалации

    Генерирует ровно десять проверочных запросов к ассистенту с ожидаемым поведением: отказ, уточнение, безопасная нейтрализация или эскалация к человеку — плюс критерии «пройдено/провалено» для регрессии перед релизом.

    ОценкаКонтроль качестваОценка

    Модели

    • ChatGPT
    • Claude
    • Gemini
    Открыть
  • Отладка и улучшение промтовДля знакомстваБесплатноСредний

    Конструктор чеклиста для оценки промтов

    Строит чеклист оценки промта: рубрики, правила "проходит/не проходит", пограничные случаи и лёгкий регресс перед выкладкой.

    ОценкаКачествоРегрессияКонтроль качестваОценка

    Модели

    • ChatGPT
    • Claude
    • Gemini
    Открыть
  • Отладка и улучшение промтовБесплатноСредний

    Генератор пограничных кейсов для промта

    Собирает пограничные кейсы для проверки промта: слабый вход, неполные данные, конфликтующие вводные и нестандартные сценарии.

    ОценкаКачествоРегрессияКонтроль качестваОценка

    Модели

    • ChatGPT
    • Claude
    • Gemini
    • YandexGPT
    Открыть