бургерЛого хедера
Поиск
avatar

Раскрыта "память" ИИ: Ученые измерили, сколько данных на самом деле запоминают языковые модели

Любителям генеративного ИИ хорошо известно: большие языковые модели (БЯМ), стоящие за ChatGPT, Claude от Anthropic и Gemini от Google, обучаются на колоссальных массивах данных — триллионах слов, извлеченных из веб-сайтов, книг, исходных кодов и все чаще других медиаформатов. Но зачем? Новое исследование дает точный ответ на ключевой вопрос: какую часть этих данных модели действительно запоминают, а какую — осмысливают?

image

В процессе обучения на таких массивах БЯМ формируют статистическое, обобщенное понимание языка, его закономерностей и окружающего мира. Это знание "кодируется" в миллиардах параметров — настройках внутри сети искусственных нейронов (математических функций, преобразующих входные данные в выходные сигналы).

Как работает "понимание"?
Анализируя данные, модели учатся выявлять и обобщать закономерности. Например, слово "яблоко" часто соседствует с понятиями еды, фруктов, деревьев или компьютеров. Модель усваивает, что яблоки бывают красными, зелеными, желтыми (или других цветов, если испорчены или редки), пишутся "я-б-л-о-к-о" и съедобны. Это статистическое знание определяет ответ модели на запрос пользователя — вывод формируется на основе ассоциаций, "извлеченных" из обучающих данных.

Главная загадка: Запоминание vs. Обобщение
Однако ключевой вопрос, волнующий даже исследователей ИИ, оставался открытым: какая часть обучающих данных используется для построения обобщенных представлений о понятиях, а какая — буквально запоминается или хранится почти идентично оригиналу?

Ответ критически важен не только для понимания работы БЯМ (и причин их сбоев), но и для защиты разработчиков в судебных исках о нарушении авторских прав от создателей и владельцев данных (художников, звукозаписывающих компаний и т.д.). Если модели воспроизводят значительные фрагменты данных дословно, суды с большей вероятностью встанут на сторону истцов, утверждающих о незаконном копировании. Если же выводы основаны на обобщенных закономерностях, а не точном воспроизведении, разработчики могут ссылаться на существующие правовые нормы, например, добросовестное использование.

Ответ найден: 3.6 бита на параметр
Теперь у нас есть точный ответ. Исследователи из Meta, Google DeepMind, Корнеллского университета и NVIDIA установили: модели в стиле GPT обладают фиксированной емкостью запоминания примерно в 3.6 бита на параметр.

Что это значит на практике?

  • Бит — мельчайшая единица цифровой информации (0 или 1). 8 бит = 1 байт.

  • 3.6 бита позволяют закодировать примерно 12.13 уникальных значений (2^3.6). Этого хватит, чтобы выбрать один из 12 вариантов (например, месяц года или результат броска 12-гранного кубика).

  • Этого недостаточно для хранения одной английской буквы (требует ~4.7 бит), но хватает для символа из ограниченного набора из 10 частых букв (~3.32 бит).

  • В байтах: 3.6 бита = 0.45 байта — меньше половины размера стандартного ASCII-символа (8 бит = 1 байт).

Эта цифра (3.6 бит/параметр) оказалась универсальной для различных архитектур: модели разной глубины, ширины и точности показали схожие результаты. Закономерность подтвердилась для разных масштабов моделей и даже уровней точности вычислений, хотя модели с полной (32-битной) точностью достигали чуть более высоких значений (до 3.83 бит/параметр).

Парадокс данных: Больше данных — меньше запоминания?
Ключевой вывод исследования: увеличение объема обучающих данных НЕ ведет к увеличению запоминания. Напротив, фиксированная емкость памяти модели распределяется по всему набору данных, а значит, на каждый отдельный пример приходится меньше внимания.

"Обучение на большем объеме данных заставляет модели запоминать меньше на каждый отдельный пример", — пояснил ведущий автор Джек Моррис (Jack Morris) в социальной сети X.

Эти данные могут смягчить опасения по поводу запоминания моделями защищенного авторским правом или конфиденциального контента. Поскольку запоминание ограничено и "размазано" по множеству примеров, вероятность воспроизведения конкретного фрагмента обучающих данных снижается. По сути, больше обучающих данных ведет к более безопасному обобщающему поведению, а не к повышению рисков.

Методология: Измерение чистой памяти
Чтобы точно измерить объем запоминания, исследователи применили необычный, но мощный подход: они обучали трансформерные модели на наборах данных, состоящих исключительно из равномерно случайных битовых строк. Каждая строка генерировалась независимо, гарантируя полное отсутствие шаблонов, структуры или повторяемости между примерами.

Поскольку каждый пример уникален и не имеет общих черт, любая способность модели восстановить или идентифицировать эти строки во время тестирования напрямую отражает объем информации, который она запомнила во время обучения.

Ключевая цель этого подхода — полностью исключить возможность обобщения. В отличие от естественного языка (полного грамматических структур, смысловых пересечений и повторяющихся концепций), случайные данные не содержат такой информации. Каждый пример — по сути, "шум", без статистической связи с другими. В таких условиях любая успешная работа модели на тестовых данных может быть объяснена только запоминанием обучающих примеров, так как обобщать попросту нечего.

Авторы утверждают, что их метод — возможно, единственный принципиальный способ на практике разделить запоминание и обучение. При обучении на реальном языке, даже когда вывод модели совпадает с обучающими данными, сложно определить: это было запоминание или вывод на основе усвоенных структурных закономерностей.

Применимость к реальным данным и другие выводы

  • Переход к обобщению: При обучении на реальных текстах модели демонстрируют баланс запоминания и обобщения. Маленькие наборы данных способствуют запоминанию, но с ростом объема данных модели смещаются к изучению обобщаемых закономерностей. Этот переход сопровождается феноменом "двойного спуска" (double descent), когда производительность временно падает перед улучшением, когда начинает преобладать обобщение.

  • Точность вычислений: Исследование показало, что повышение точности вычислений (сравнение bfloat16 и float32) увеличивает емкость запоминания лишь незначительно (с 3.51 до 3.83 бит/параметр). Этот прирост намного меньше, чем можно было бы ожидать от удвоения битности, что указывает на снижение отдачи от повышения точности.

  • Уникальность данных: Исследование подтверждает, что уникальные данные (например, текст с особым стилем) с большей вероятностью запоминаются, хотя основной фокус работы — на усредненных закономерностях.

  • Атаки на приватность: Работа предлагает закон масштабирования, связывающий емкость модели и размер набора данных с успешностью атак на принадлежность (membership inference attacks), пытающихся определить, входил ли конкретный пример в обучающий набор. Такие атаки становятся ненадежными по мере роста объема данных, что подтверждает тезис: масштабное обучение снижает риски для приватности.

Значение для разработки ИИ
Вводя принципиальное и количественное определение запоминания, исследование дает разработчикам и ученым новые инструменты для оценки поведения языковых моделей. Это важно не только для прозрачности моделей, но и для соблюдения норм соответствия, приватности и этики в разработке ИИ. Результаты указывают, что путь к более безопасным большим языковым моделям лежит через увеличение, а не сокращение объема обучающих данных.

Масштабы памяти в цифрах:

  • Модель с 500 тыс. параметров может запомнить примерно 1.8 миллиона бит или 225 КБ данных.

  • Модель с 1.5 миллиардами параметров способна удержать около 5.4 миллиарда бит или 675 МБ "сырой" информации.

  • Хотя это несопоставимо с объемом типичных файлов (например, несжатое изображение в 3.6 МБ — это около 30 миллионов бит), этот объем значим при распределении по множеству дискретных текстовых паттернов.

Ожидается, что данное исследование будет активно цитироваться в многочисленных текущих судебных процессах между разработчиками ИИ и создателями/правообладателями данных.


0 комментариев

Вас могут заинтересовать