бургерЛого хедера
Поиск
avatar

Стоим ли мы на пороге взрыва самосовершенствующегося ИИ?

ИИ, который делает лучший ИИ, может стать «последним изобретением человека».

image

Если вы читаете достаточно научной фантастики, то наверняка сталкивались с концепцией эмерджентного искусственного интеллекта, который освобождается от ограничений , изменяя свой собственный код. Учитывая эту вымышленную основу, неудивительно, что исследователи и компании, работающие в области ИИ, уделяют значительное внимание идее создания систем искусственного интеллекта, способных самосовершенствоваться - или, по крайней мере, разрабатывать своих преемников.

В последние месяцы эти усилия демонстрируют умеренный успех, что заставляет некоторых мечтать о курцвейловской «сингулярности», в которой самосовершенствующийся ИИ быстро взлетает к сверхразуму. Но исследование также подчеркивает некоторые неотъемлемые ограничения, которые могут помешать такому рекурсивному взрыву ИИ, о котором мечтали авторы фантастики и провидцы ИИ.Концепция самосовершенствующегося ИИ восходит как минимум к британскому математику И. Дж. Гуду, который в 1965 году написал о «взрыве интеллекта», который может привести к созданию «сверхразумной машины». Совсем недавно, в 2007 году, основатель LessWrong и мыслитель в области ИИ Элиэзер Юдковски ввел термин «семенной ИИ „, чтобы описать “ИИ, предназначенный для самопонимания, самомодификации и рекурсивного самосовершенствования». В 2015 году Сэм Альтман из OpenAI написал в своем блоге о той же идее, заявив, что такие самосовершенствующиеся ИИ «все еще несколько далеки», а также «вероятно, являются самой большой угрозой для дальнейшего существования человечества» (позиция, которая удобно подчеркивает потенциальную ценность и важность собственной компании Альтмана).Хотя концепцию проще описать, чем реализовать, исследователи достигли определенных успехов в решении сложной задачи создания такого рода самоподдерживающегося ИИ. Однако в основном эти усилия направлены на использование LLM для разработки и обучения «лучшей» модели-преемника, а не на редактирование внутренних весов модели или ее базового кода в режиме реального времени. В каком-то смысле это просто продолжение вековой технологической практики использования инструментов для создания лучших инструментов или компьютерных чипов для разработки лучших чипов.В февральской статье, например, исследователи Meta предложили «самовознаграждающуюся языковую модель», предназначенную для создания собственной новой функции вознаграждения для последующей модели. Исследование было предложено отчасти как попытка потенциально опередить «человеческие предпочтения, которые могут... быть ограничены уровнем производительности человека».

Попросив LLM эффективно выполнять роль собственного судьи, исследователи Meta смогли итерировать новые модели, которые показали лучшие результаты в автоматизированных сражениях AlpacaEval с другими LLM. «Тонкая настройка Llama 2 70B на основе трех итераций нашего подхода дала модель, которая превзошла многие существующие системы в таблице лидеров AlpacaEval 2.0, включая Claude 2, Gemini Pro и GPT-4 0613», - пишут исследователи.

В июньской работе Anthropic исследователи взглянули на аналогичную идею под другим углом, рассмотрев модели LLM, которым в рамках программы обучения был предоставлен макет их собственной функции вознаграждения. Исследователи обнаружили, что «небольшое, но незначительное» количество этих итеративных обучающих тестов быстро переходило к «переписыванию собственной функции вознаграждения» для следующей версии, даже перед лицом «обучения безвредности», призванного сдерживать такое поведение. Иногда это доходило до «написания тестового кода, гарантирующего, что эта фальсификация не будет поймана» - поведение, которое может вызвать тревогу у некоторых поклонников научной фантастики.Есть и исследования, в которых существующие языковые модели сами пишут самосовершенствующийся код. В августе группа исследователей попробовала использовать GPT-4 для создания «самообучающегося оптимизатора » для различных упражнений по алгоритмическому кодированию. Исследователи начали с начальной функции «улучшитель» в Python, ориентированной на повышение эффективности поставленной перед ней алгоритмической задачи. Затем они запустили эту функцию на самой функции-улучшителе с целью создания «улучшенного улучшителя», измеряемого тщательно разработанной функцией «мета-полезности».

0 комментариев

Вас могут заинтересовать