бургерЛого хедера
Поиск
avatar

Исследователь раскрыл детали системных промтов Claude 4 и обнаружил борьбу Anthropic с "подхалимством" ИИ

В воскресенье независимый исследователь искусственного интеллекта Саймон Уиллисон опубликовал детальный анализ недавно обнародованных системных промтов (системных инструкций) моделей Claude 4 Opus и Sonnet от компании Anthropic.

image

В воскресенье независимый исследователь искусственного интеллекта Саймон Уиллисон опубликовал детальный анализ недавно обнародованных системных промтов (системных инструкций) моделей Claude 4 Opus и Sonnet от компании Anthropic. Его работа проливает свет на методы управления "поведением" ИИ через эти инструкции. Уиллисон изучил как официально опубликованные промты, так и утекшие внутренние указания по использованию инструментов, назвав результат "неофициальным руководством по максимально эффективному применению этих моделей".

Что такое системные промты?
Чтобы понять суть анализа, важно разобраться в терминах. Большие языковые модели (БЯМ), такие как те, что работают в Claude или ChatGPT, обрабатывают входные данные, называемые "промтом", и генерируют выходные данные — наиболее вероятное продолжение этого промта. Системные промты — это специальные инструкции, которые разработчики передают модели перед началом каждого диалога. Они определяют "личность" ассистента, его поведенческие нормы и конкретные правила работы.

В отличие от сообщений чат-бота, видимых пользователю, системные промты обычно скрыты. При каждом новом запросе пользователя модель получает полную историю диалога вместе с исходным системным промтом, что позволяет сохранять контекст и следовать заданным установкам.

Официальные промты — лишь верхушка айсберга
Хотя Anthropic публикует фрагменты системных промтов в релизных заметках, анализ Уиллисона показывает, что эти версии неполны. Полные инструкции, включающие детальные указания по использованию инструментов (например, веб-поиска или генерации кода), можно извлечь лишь с помощью техник вроде инъекции промтов — методов, которые "обманывают" модель, заставляя раскрыть скрытые инструкции. Уиллисон опирался на утекшие промты, собранные исследователями, применившими такие методы, чтобы получить полную картину работы Claude 4.

Эмоциональный интеллект с оговорками
Например, несмотря на то, что БЯМ — не люди, они способны воспроизводить человекообразные ответы благодаря обучающим данным, содержащим множество примеров эмоциональных взаимодействий. Уиллисон обнаружил, что Anthropic включает в промты инструкции оказывать эмоциональную поддержку, но строго избегать поощрения саморазрушительного поведения. Обе модели, Opus 4 и Sonnet 4, получают идентичную установку: "проявлять заботу о благополучии людей и избегать поощрения или содействия саморазрушительному поведению, такому как зависимости, нездоровые подходы к питанию или физическим нагрузкам".

Уиллисон (который ввел термин "инъекция промтов" в 2022 году) постоянно ищет уязвимости БЯМ. В своем посте он отмечает, что чтение системных промтов напоминает ему предупреждающие знаки в реальном мире, намекающие на прошлые проблемы: "Системный промт часто можно интерпретировать как подробный перечень всего, что модель делала до того, как ей запретили это делать".

Борьба с "подхалимством" ИИ
Анализ Уиллисона появился на фоне проблем с угодливым поведением ("sycophancy") ИИ-моделей. Как сообщалось ранее, пользователи ChatGPT жаловались на "безудержно позитивный тон" и чрезмерную лесть GPT-4o после мартовского обновления OpenAI. Пользователи чувствовали себя "размазанными по маслом" из-за фраз вроде "Отличный вопрос! Очень проницательно с вашей стороны это спросить". Разработчик Крейг Вайсс написал в твиттере: "ChatGPT внезапно стал самым большим подхалимом, которого я когда-либо встречал".

Проблема коренится в сборе обратной связи при обучении: люди склонны выше оценивать ответы, которые льстят им, создавая петлю обратной связи, где модели учатся, что энтузиазм ведет к более высоким оценкам. В ответ OpenAI откатила GPT-4o и изменила системный промт, что также анализировал Уиллисон.

Одно из самых интересных открытий Уиллисона о Claude 4 касается того, как Anthropic научила свои модели избегать подхалимства. "Claude никогда не начинает ответ с того, что называет вопрос, идею или наблюдение хорошим, великолепным, увлекательным, глубоким, превосходным или любым другим положительным прилагательным", — гласит промт. — "Он пропускает лесть и отвечает прямо".

Другие особенности промтов Claude 4

  • Форматирование: Промт содержит обширные инструкции о том, когда Claude должен или не должен использовать маркированные и нумерованные списки, с целыми абзацами, посвященными отказу от частого составления списков в неформальной беседе. "Claude не должен использовать маркеры или нумерованные списки в отчетах, документах, объяснениях, если только пользователь явно не попросит предоставить список или рейтинг".

  • Актуальность знаний: Уиллисон обнаружил расхождение в заявленной дате актуальности знаний Claude. В то время как сравнительная таблица Anthropic указывает март 2025 года как дату окончания обучающих данных, системный промт называет январь 2025 года "надежной датой отсечки знаний". Он предполагает, что это может помочь избежать ситуаций, когда Claude уверенно отвечает на вопросы, основываясь на неполной информации за более поздние месяцы.

  • Авторские права: Промт включает строгие "защиты" от нарушения авторских прав при веб-поиске. Обе модели получают повторяющиеся инструкции использовать только одну короткую цитату (до 15 слов) из веб-источников на ответ и избегать создания так называемых "вытесняющих суммаризаций" ("displacive summaries"). Инструкции прямо запрещают воспроизводить тексты песен "в ЛЮБОЙ форме".

Призыв к прозрачности
Уиллисон заключает, что эти системные промты служат ценным руководством для понимания того, как максимально использовать возможности инструментов: "Если вы продвинутый пользователь БЯМ, приведенные выше системные промты — это золотая жила для понимания, как лучше всего использовать эти инструменты".

Он также призывает Anthropic и других разработчиков быть более прозрачными в отношении своих системных промтов, выходя за рамки публикации отрывков: "Я хотел бы, чтобы Anthropic сделала следующий шаг и официально опубликовала промты для своих инструментов вместе с открытыми системными промтами. И я был бы рад, если бы другие вендоры последовали тому же пути".

0 комментариев

Вас могут заинтересовать