Главная Безопасность и кибербезопасность Антроп обманул Клода, заставив его думать, что это...

Антроп обманул Клода, заставив его думать, что это мост Золотые Ворота (и другие взгляды на загадочный мозг ИИ)

Модели ИИ загадочны: они выдают ответы, но нет реального способа понять, что стоит за их ответами.

Это происходит потому, что их мозг работает на принципиально ином уровне, чем наш, - они обрабатывают длинные списки нейронов, связанных с множеством различных понятий, - поэтому мы просто не в состоянии понять ход их мыслей.

Но теперь исследователи впервые смогли заглянуть во внутреннюю работу разума ИИ. Команда Anthropic рассказала, как она использует «словарное обучение» Клода Сонета, чтобы выявить пути в мозге модели, которые активируются различными темами - от людей, мест и эмоций до научных концепций и еще более абстрактных вещей. Интересно, что эти функции можно вручную включать, выключать или усиливать, что в конечном итоге позволяет исследователям управлять поведением модели. Примечательно: Когда в Клоде была усилена функция «Мост Золотые Ворота», а затем модель попросили принять ее физическую форму, она заявила, что это «сам культовый мост». Клода также можно было обмануть, чтобы он составил мошенническое письмо, и направить его на то, чтобы он стал подхалимским.В итоге Anthropic утверждает, что это очень раннее исследование, к тому же ограниченное по масштабам (выявление миллионов функций по сравнению с миллиардами функций в крупнейших современных моделях ИИ) - но в конечном итоге оно может приблизить нас к ИИ, которому можно доверять. «Это первый в истории подробный взгляд внутрь современной большой языковой модели производственного уровня», - пишут исследователи в новой статье, опубликованной сегодня. «Это открытие интерпретируемости может в будущем помочь нам сделать модели ИИ более безопасными».