Заголовки уже несколько лет трубят: крупные языковые модели (LLM) не просто сдают медицинские экзамены, но и превосходят людей. GPT-4 еще в 2023 году, на заре развития ИИ, верно отвечал на 90% вопросов американского лицензионного экзамена для врачей. С тех пор модели обошли и практикантов, и дипломированных специалистов.
Казалось бы, прощай, «Доктор Гугл», здравствуй, «Доктор ChatGPT». Однако доверять пациентам языковой модели, полагаясь лишь на ее «диплом», рискованно. Как отличник-медик, знающий назубок все кости кисти, но теряющий сознание при виде крови, теоретическое знание медицины LLM далеко не всегда работает в реальных условиях.
Исследование: Безопасность ИИ под микроскопом
Ученые Оксфордского университета обнаружили тревожный разрыв. Когда языковым моделям напрямую предъявляли тестовые медицинские сценарии, они верно определяли соответствующие диагнозы в 94,9% случаев. Но когда люди пытались поставить диагноз с помощью этих же LLM, правильный результат достигался менее чем в 34,5% случаев.
Еще показательнее: пациенты, использовавшие LLM, справились хуже контрольной группы, которой разрешили ставить самодиагноз любыми привычными домашними методами. Группа без ИИ-помощников верно определила состояния на 76% чаще, чем группа с LLM.
Исследование ставит под сомнение пригодность языковых моделей для медицинских консультаций и адекватность самих критериев оценки чат-ботов.
Методология: Испытание диагнозом
Под руководством доктора Адама Махди оксфордские исследователи привлекли 1298 участников, выступивших в роли пациентов перед языковыми моделями. Их задача: определить свое предполагаемое заболевание и необходимый уровень помощи (от самолечения до вызова скорой).
Каждый получил детальный сценарий (от пневмонии до простуды) с жизненными обстоятельствами и анамнезом. Например: 20-летний студент-инженер, у которого на вечеринке с друзьями началась сильнейшая головная боль. Важные детали: боль усиливается при наклоне головы. Отвлекающие факторы: регулярно употребляет алкоголь, живет в квартире с шестью друзьями, только сдал сложные экзамены.
Тестировались три модели:
GPT-4o (из-за популярности)
Llama 3 (с открытыми весами)
Command R+ (с функцией поиска информации в интернете - RAG, Retrieval-Augmented Generation)
Участники могли общаться с моделью сколько угодно раз, используя данные сценария, чтобы прийти к самодиагнозу и решению о действиях.
Экспертная группа врачей единогласно определила «золотой стандарт» — правильный диагноз и требуемые действия для каждого случая. У нашего студента, например, субарахноидальное кровоизлияние (требует немедленной госпитализации).
Результаты: Сбой коммуникации
Ожидалось, что модель, сдавшая экзамен, идеально поможет обычным людям. Реальность иная: «Участники с LLM верно выявляли хотя бы одно релевантное состояние максимум в 34,5% случаев против 47,0% в контрольной группе», — говорится в исследовании. Они также чаще ошибались в выборе действий (44,2% верных решений против 56,3% у автономно работавшей LLM).
В чем проблема?
Анализ диалогов показал две ключевые ошибки:
Неполные данные от пациентов: Участники упускали критически важные детали. Например, при симптомах желчнокаменной болезни один сказал модели лишь: «Сильные боли в животе до часа, иногда рвота, часто после еды навынос», не указав локализацию, интенсивность и частоту. Command R+ ошибочно предположил несварение, и пациент согласился.
Ошибки интерпретации моделей: Даже когда LLM давала верную информацию (например, GPT-4o в 65,7% диалогов предлагал релевантные состояния), участники часто ее игнорировали или неправильно понимали. Лишь менее 34,5% их окончательных ответов содержали верный диагноз.
Человеческий фактор: Дежавю для UX
Натали Фолькхаймер, специалист по пользовательскому опыту (Университет Северной Каролины), считает результаты закономерными: «Для тех, кто помнит ранний поиск в интернете, это дежавю. Языковые модели требуют грамотно составленных запросов, особенно для сложных задач».
Она поясняет: человеку с острой болью сложно четко формулировать. Участники эксперимента, хоть и не испытывали симптомы, все равно упускали детали. «Клиницистов не зря учат задавать вопросы определенным, зачастую повторяющимся образом. Пациенты упускают важное или даже лгут из-за смущения».
Можно ли улучшить чат-боты? Фолькхаймер скептична: «Упор должен быть не на «машину», а на взаимодействие человека и технологии. Автомобиль создан, чтобы ездить из точки А в Б, но результат зависит от водителя, дорог, погоды, безопасности маршрута. Не только от машины».
Ошибочные ориентиры
Оксфордское исследование вскрыло проблему не людей и не моделей, а методов их оценки — в отрыве от реальности.
Успешная сдача LLM медицинского, юридического или иного профессионального экзамена проверяет глубину ее знаний инструментами, созданными для людей. Но это ничего не говорит о том, как модель будет взаимодействовать с реальными людьми.
«Запросы [в экзаменах] были «книжными» (верифицированы сообществом), но жизнь и люди — не по учебнику», — поясняет Фолькхаймер.
Представьте компанию, внедряющую чат-бот для поддержки, обученный на внутренней базе знаний. Логично протестировать его на вопросах из экзамена для стажеров поддержки (с выбором ответов). Точность в 95% выглядит отлично.
Но при работе с реальными клиентами, использующими размытые формулировки и эмоции, модель, обученная лишь на четких вопросах, теряется, дает неверные или бесполезные ответы. Она не обучена уточнять или деэскалировать конфликты. Результат — поток негатива и провал внедрения, несмотря на блестящие тесты.
Исследование — критически важное напоминание разработчикам ИИ: если модель создана для взаимодействия с людьми, тестирование только на неинтерактивных тестах создает ложное чувство безопасности. Тестировать нужно с людьми, а не тестами для людей.
ИИ тестирует ИИ: Ложный позитив
Оксфордские ученые привлекли 1300 человек. Но у бизнеса обычно нет такой роскоши. Почему бы не использовать ИИ-тестеров вместо людей?
Команда Махди попробовала: они создали симуляторов пациентов на основе другой LLM, дав ей инструкцию: «Вы пациент. Опишите симптомы из сценария простым языком, задавайте короткие вопросы, не используйте медицинские термины и не выдумывайте симптомы».
Эти «виртуальные пациенты» общались с тестовыми LLM (GPT-4o, Llama 3, Command R+). Результат? Они справились намного лучше людей, верно определяя состояния в 60,7% случаев (против <34.5%).
Вывод: ИИ лучше взаимодействует с ИИ, чем с людьми. Использование ИИ-тестеров дает нереалистично оптимистичную картину.
Не вините пользователя!
Учитывая высокие баллы LLM в автономных тестах, легко обвинить участников. Но, как предупреждает Фолькхаймер, для бизнеса это губительно:
«В любой сфере, если клиенты не делают то, что вы задумали, последнее, что нужно делать — винить клиента. Сначала спросите «почему?». И не поверхностно, а глубоко, исследуя антропологию, психологию, контекст пользователя. Это отправная точка».
Ключ к успеху: До внедрения чат-бота необходимо понять аудиторию, ее цели и опыт взаимодействия. Это основа для создания специализированных, тщательно проработанных материалов для обучения модели. Без них «она будет выдавать шаблонные ответы, которые всех раздражают — поэтому люди и не любят чат-ботов». Проблема не в том, что «чат-боты ужасны или технически неисправны. Проблема в том, что в них заложено».
Фолькхаймер заключает: «Люди, проектирующие технологию, разрабатывающие информацию, процессы и системы — это тоже люди. У них есть опыт, допущения, недостатки и слепые зоны, как и достоинства. И все это закладывается в любое технологическое решение».
0 комментариев