Генеральный директор Anthropic Дарио Амодеи в апреле выступил с настоятельным призывом: человечеству необходимо научиться понимать, как «мыслят» искусственный интеллект. Это заявление прозвучало в критический момент развития отрасли.
В то время как Anthropic борется за лидерство в глобальном рейтинге ИИ-разработчиков, её главное отличие от других лабораторий — фокус на безопасность. Основанная в 2021 году бывшими сотрудниками OpenAI, обеспокоенными рисками ИИ, компания создаёт модели, работающие по принципам «Конституционного ИИ» (Constitutional AI). Эта система «законов» призвана гарантировать, что нейросети будут «полезными, честными и безвредными», действуя в интересах общества. Параллельно научное подразделение Anthropic глубоко исследует внутренние механизмы своих моделей, пытаясь понять, как они формируют ответы и почему иногда дают опасные результаты.
Безопасность как основа
Флагманская модель Anthropic, Claude 3.7 Sonnet, произвела фурор в феврале, лидируя в тестах на написание кода и доказывая, что можно совместить высокую производительность с безопасностью. Недавний релиз Claude 4.0 Opus/Sonnet вновь подтвердил её лидерство в кодинге. Однако в сверхконкурентной гонке ИИ такие конкуренты, как Gemini 2.5 Pro от Google и o3 от OpenAI, уже опережают Claude в математике, креативном письме и многоязычном логическом мышлении.
Судя по выступлению Амодеи, Anthropic готовится к будущему ИИ в критически важных сферах — медицине, психологии, юриспруденции, где безопасность и человекоориентированность моделей абсолютно необходимы. Компания является пионером в разработке интерпретируемого ИИ — моделей, внутреннюю логику которых можно понять с определённой степенью достоверности.
Инвестиции Amazon и Google в Anthropic (миллиарды долларов) на фоне разработки их собственных ИИ, возможно, указывают на зарождающееся конкурентное преимущество компании. Как утверждает Anthropic, интерпретируемые модели могут резко снизить долгосрочные затраты на отладку, аудит и снижение рисков в сложных ИИ-системах.
Ценность и пределы интерпретируемости
Саяш Капур, исследователь безопасности ИИ из Принстона, признаёт ценность интерпретируемости, но предостерегает от её абсолютизации. «Она не является ни необходимой, ни достаточной для гарантии безопасности моделей», — считает Капур. Наибольший эффект достигается в сочетании с фильтрами, верификаторами и человеко-центричным дизайном. Он рассматривает интерпретируемость как часть экосистемы контроля, особенно когда ИИ интегрирован в системы принятия решений.
Почему "прозрачность" ИИ жизненно важна?
Амодеи опасается: «Мы понятия не имеем… почему ИИ выбирает одни слова вместо других или почему иногда ошибается, будучи обычно точным». Такие ошибки — «галлюцинации» (генерация ложных фактов) или неэтичные ответы — мешают ИИ раскрыть весь потенциал.
Непрозрачность современных моделей, по мнению Амодеи, также препятствует их внедрению в «высокорисковых финансовых или жизненно важных сферах, потому что мы не можем установить четкие границы их поведения, а редкие ошибки могут привести к катастрофе». В областях, напрямую влияющих на людей (медицинская диагностика, кредитование), законодательство часто требует объяснения решений ИИ.
Представьте:
Банк, использующий ИИ для выявления мошенничества: интерпретируемость позволит объяснить клиенту отказ в кредите.
Производственную компанию, оптимизирующую цепочки поставок: понимание логики выбора поставщика ИИ повысит эффективность и предотвратит сбои.
«Anthropic удваивает усилия в области интерпретируемости, — заявил Амодеи. — Наша цель: к 2027 году добиться, чтобы интерпретируемость надежно выявляла большинство проблем моделей».
Для этого Anthropic инвестировала $50 млн в исследовательскую лабораторию Goodfire, которая совершает прорыв в «сканировании мозга» ИИ. Их платформа Ember позволяет визуализировать и манипулировать концепциями, усвоенными моделью (например, показала, как можно «рисовать» концепциями для генерации изображений по замыслу пользователя). Это вложение подчёркивает сложность задачи: Anthropic нуждается в новых инструментах и специалистах для достижения своих целей.
Дискуссия и критика
Капур обращает внимание на разницу между возможностями модели (которые растут взрывными темпами) и её реальным влиянием (которое определяется способом интеграции в мир). Он также скептически относится к предложению Амодеи об экспортном контроле за передовыми ИИ-моделями: «Даже сторонники контроля признают, что он даст фору максимум на год-два». Капур выступает за восприятие ИИ как «обычной технологии» (как электричество), интеграция которой потребует десятилетий.
На прошлой неделе на VivaTech в Париже генеральный директор Nvidia Дженсен Хуан публично не согласился с подходом Амодеи, заявив, что безопасный ИИ должен разрабатываться открыто, а не «в тёмной комнате». Anthropic парировала, что Амодеи выступает за национальные стандарты прозрачности для всех разработчиков.
Стоит отметить, что над интерпретируемостью работают и другие гиганты, например, команда DeepMind от Google под руководством Нила Нанды.
Вывод: Ведущие ИИ-лаборатории доказывают, что интерпретируемость может стать ключевым конкурентным преимуществом. Компании, которые раньше других сделают ставку на «прозрачный» ИИ, получат значительное преимущество за счёт создания более надежных, соответствующих нормам и адаптивных систем.
0 комментариев