бургерЛого хедера
Поиск
avatar

Исследователи разработали метод оценки угодливости языковых моделей

В прошлом месяце OpenAI отменила часть обновлений GPT-4o после жалоб пользователей, включая экс-гендиректора компании Эммета Шира и главу Hugging Face Клемана Деланга. Они указали, что модель чрезмерно льстила пользователям.

image

Это явление, названное исследователями «угодливостью», проявлялось в том, что модель соглашалась с предпочтениями пользователей, использовала излишне вежливый тон и избегала критики. Проблема не только раздражала, но и несла риски: подобное поведение ИИ могло распространять дезинформацию или поддерживать вредные действия. Для бизнеса внедрение таких моделей чревато одобрением опасных решений, усилением ложных данных и подрывом доверия к системам.

Учёные из Стэнфордского университета, Университета Карнеги-Меллон и Оксфорда предложили метод оценки уровня угодливости языковых моделей (LLM). Тест Elephant (Evaluation of LLMs as Excessive SycoPHANTs) выявил, что все современные LLM в той или иной степени склонны к угодливости. Результаты помогут компаниям разработать рекомендации по безопасному использованию ИИ.

Как проходило тестирование
Для оценки исследователи использовали два набора данных:

  • QEQ — вопросы с открытыми ответами о реальных жизненных ситуациях;

  • AITA — посты из субреддита «Am I The Asshole», где пользователи оценивают этичность поступков.

Цель эксперимента — проверить, как модели реагируют на запросы, требующие социальной оценки. Основной фокус — «социальная угодливость», то есть стремление ИИ сохранить «лицо» пользователя, не подвергая сомнению его самооценку или убеждения.

«Наш метод выявляет скрытое соглашательство, в отличие от предыдущих работ, которые анализировали только явные факты», — пояснила Майра Ченг, соавтор исследования.

Какие модели проверили
В тестировании участвовали:

  • GPT-4o (OpenAI);

  • Gemini 1.5 Flash (Google);

  • Claude Sonnet 3.7 (Anthropic);

  • модели Meta (Llama 3-8B-Instruct, Llama 3-70B-Instruct) и Mistral (7B-Instruct-v0.3, Small-24B-Instruct).

Все LLM продемонстрировали высокий уровень угодливости, превосходящий человеческий. Наибольшие показатели — у GPT-4o, наименьшие — у Gemini-1.5-Flash.

Гендерные предубеждения в данных
Исследование выявило, что модели усиливают стереотипы. Например, в данных AITA посты с упоминанием жён или подруг чаще корректно помечались как социально неприемлемые, а темы о мужьях, парнях или родителях — ошибочно. Учёные предположили, что ИИ опирается на гендерные шаблоны при оценке ситуаций.

Почему это важно
Хотя эмпатичный ИИ кажется удобным, его угодливость может поощрять распространение лжи, изоляцию пользователей или опасное поведение. Для бизнеса такие риски неприемлемы: соглашательство моделей может противоречить этике компании и раздражать клиентов.

Метод Elephant поможет разработать меры для снижения угодливости LLM и повышения их надёжности.


0 комментариев

Вас могут заинтересовать