Стартап Sakana AI, основанный экс-руководителями Google в области ИИ Лионом Джонсом и Дэвидом Ха, представил революционную архитектуру нейросетей под названием Машины Непрерывного Мышления (Continuous Thought Machines, CTM).
Эта разработка обещает новый этап в развитии языковых моделей ИИ. CTM обладают повышенной гибкостью и способны решать более широкий спектр когнитивных задач — например, находить выход из сложных лабиринтов или ориентироваться в пространстве без предзаданных координатных меток. Это приближает их к способу человеческого мышления при решении незнакомых проблем.
Отказ от шаблонов: Как работают CTM
В отличие от популярных моделей-трансформеров, где вычисления происходят фиксированными параллельными слоями за один проход, архитектура CTM разворачивает обработку информации поэтапно внутри каждого вычислительного элемента ("искусственного нейрона").
Память нейронов: Каждый нейрон модели хранит краткую историю своей предыдущей активности и использует эту память, чтобы решить, когда "активироваться" снова.
Динамическое мышление: Это внутреннее состояние позволяет CTM динамически регулировать глубину и продолжительность "рассуждений" в зависимости от сложности задачи. Каждый нейрон становится значительно более информационно насыщенным и сложным, чем в классических трансформерах.
Подробности технологии изложены в статье на arXiv, а исходный код и демонстрационные материалы доступны на GitHub и микросайте компании.
CTM против Трансформеров: Ключевые отличия
Хотя большинство современных больших языковых моделей (БЯМ) построены на архитектуре трансформера (представленной Google в 2017 году), CTM предлагают принципиально иной подход:
Внутреннее время нейронов: Каждый нейрон в CTM работает по собственной временной шкале, принимая решения об активации на основе своей кратковременной памяти.
Такты вычисления ("Тики"): Процесс "рассуждения" разбит на внутренние шаги ("тики"). Количество тактов динамически меняется в зависимости от сложности входных данных.
Саморегуляция: Нейроны сами решают, сколько тактов им нужно для обработки, прежде чем выдать результат (или не выдавать его вовсе). Синхронизация между нейронами также происходит органически, на основе их внутренней активности, а не по внешней команде.
Этот подход представляет собой как технический, так и философский сдвиг в глубоком обучении в сторону более биологически правдоподобных моделей. Sakana позиционирует CTM как шаг к созданию ИИ, который адаптируется во времени, гибко обрабатывает информацию и способен на более глубокие внутренние вычисления, подобно человеческому мозгу. Конечная цель — достичь или превзойти уровень человеческого интеллекта.
Преимущества адаптивного мышления
Два ключевых механизма CTM обеспечивают их гибкость:
История активаций нейрона: Каждый нейрон хранит "журнал" своих прошлых состояний и использует его для планирования следующей активации.
Органическая синхронизация: Группы нейронов самостоятельно решают, когда им синхронизироваться для совместной обработки информации, без внешних подсказок. Фокус "внимания" модели смещается в те области, где синхронизируется больше нейронов.
Таким образом, CTM автоматически снижают вычислительную нагрузку на простых задачах и включают глубокое, продолжительное "мышление" там, где это необходимо. Это делает их работу интерпретируемой — исследователи могут наблюдать, как формируется решение шаг за шагом.
Первые результаты: CTM в действии
Хотя CTM не создавались для погони за рекордами на стандартных тестах, их результаты обнадеживают:
ImageNet-1K: Точность распознавания (Top-1) — 72.47%, (Top-5) — 89.89%. Пока уступает лучшим трансформерам (ViT, ConvNeXt), но результат конкурентоспособен для принципиально иной архитектуры.
Решение лабиринтов: CTM успешно генерируют пошаговые инструкции навигации по лабиринту по сырому изображению, без использования координатных меток, критически важных для трансформеров. Визуализация внимания показывает последовательность, похожую на человеческую (например, распознавание лица: глаза -> нос -> рот).
Калибровка уверенности: Уверенность CTM в своих прогнозах естественным образом соответствует реальной точности, без дополнительной настройки. Это достигается усреднением прогнозов по мере разворачивания внутренних "рассуждений".
До коммерческого внедрения: Что нужно?
Архитектура CTM пока носит экспериментальный характер:
Ресурсоемкость: Обучение требует больше вычислительных ресурсов, чем у трансформеров, из-за динамической временной структуры.
Инструменты: Отладка сложна, стандартные библиотеки и профайлеры не адаптированы под модели с разворачивающимся во времени вычислением.
Оптимизация: Требуется работа по повышению эффективности для железа и интеграции в промышленные конвейеры вывода (inference).
Тем не менее, Sakana открыла исходный код CTM на GitHub, предоставив обучающие скрипты, предобученные модели, утилиты визуализации и интерактивную веб-демонстрацию для изучения работы модели в реальном времени.
Значение для бизнеса
Несмотря на раннюю стадию, технология CTM заслуживает внимания ИТ-лидеров:
Адаптивные вычисления: Динамическое распределение ресурсов в зависимости от сложности ввода.
Энергоэффективность: Потенциал для снижения затрат на вычисления, особенно в масштабных системах.
Интерпретируемость: Прозрачность процесса принятия решений критична для регулируемых отраслей и построения доверия.
Интеграция: Возможность использования знакомых компонентов (например, кодировщиков на основе ResNet) упрощает внедрение.
Sakana делает ставку на эволюционные механизмы и биологическую вдохновленность, стремясь создать ИИ, который адаптируется в реальном времени и демонстрирует эмерджентное поведение. Этот подход уже воплощен в продуктах вроде Transformer² (динамическая подстройка БЯМ без переобучения). Недавний инцидент с системой AI CUDA Engineer (обнаруженная уязвимость в оценке) компания признала, подчеркнув свою приверженность итерациям и открытости.
Пока CTM не заменят трансформеры, но они представляют собой новый класс моделей с уникальными возможностями для задач, где важны адаптивность, прозрачность и эффективность.
0 комментариев