Казавшиеся непобедимыми OpenAI и американские технологические гиганты были ошеломлены появлением настоящего "темного коня" в области больших языковых моделей (БЯМ). DeepSeek, китайская компания, ранее не привлекавшая внимания, неожиданно бросила вызов лидеру.
DeepSeek-R1 не превзошла топ-модели американских гигантов по бенчмаркам, немного уступая им, однако заставила всех задуматься об эффективности использования аппаратных ресурсов и энергии.
Эффективность вместо мощности
Лишенные доступа к лучшим аппаратным решениям, инженеры DeepSeek сосредоточились на инновациях в области оптимизации, которой крупные игроки уделяли меньше внимания. OpenAI заявляет о возможном использовании DeepSeek их модели для обучения, но убедительных доказательств этому нет. Истинность этих заявлений или их цель — успокоить инвесторов — остается предметом дискуссий. Тем не менее, DeepSeek открыто опубликовал свои разработки, и независимые эксперты подтвердили воспроизводимость результатов, по крайней мере, в меньших масштабах.
Как DeepSeek достиг экономии?
Почему американские компании не смогли добиться такой экономии? Короткий ответ: у них не было столь сильной мотивации. Подробный ответ требует технических деталей.
Оптимизация кэша ключей-значений (KV-cache): Значительную экономию видеопамяти GPU дала оптимизация KV-cache, используемого в каждом слое внимания (attention layer) БЯМ.
БЯМ построены на блоках-трансформерах, каждый содержит слой внимания и полносвязную сеть (feed-forward network). Слой внимания решает задачу учета контекста при моделировании языка.
Каждое слово (точнее, токен) представляется вектором в многомерном пространстве, где каждая размерность — некий признак (цвет, твердость, часть речи). Значение вектора — смысл слова.
Слова влияют друг на друга (например, "зеленое" меняет смысл "яблока"). Для этого каждому слову сопоставляются вектор ключа (Key) и вектор запроса (Query). "Запрос" слова указывает, какие его признаки могут меняться, а "ключ" — как оно может влиять на другие слова.
Скалярное произведение ключа одного слова и запроса другого определяет силу влияния. Слой внимания добавляет часть вектора значения (Value) влияющего слова к вектору значения целевого слова.
При генерации текста пошагово, ключи и значения всех предыдущих слов хранятся в памяти GPU (это и есть KV-кэш) для расчета влияния на новое слово.
Инновация DeepSeek: Они обнаружили сильную связь между ключом и значением слова (например, смысл "зеленого" и его способность влиять на "зеленость"). Это позволило сжимать их в один (возможно, меньший) вектор и легко восстанавливать при обработке. Это экономит память GPU ценой незначительного падения точности в тестах.
Применение "Смеси экспертов" (Mixture of Experts - MoE):
В обычной нейросети все ее части вычисляются для каждого запроса, даже если они не релевантны вопросу (знания об Эйфелевой башне не нужны для истории племен Амазонии). Это приводит к большим вычислительным затратам.
В модели MoE нейросеть делится на множество мелких подсетей ("экспертов"). Для каждого запроса вычисляется релевантность каждого "эксперта", и активируются только наиболее подходящие. Это дает огромную экономию вычислений.
Вопросы, требующие знаний из нескольких областей, могут обрабатываться чуть хуже, но такие случаи минимизированы, так как области определяются данными при обучении.
Эффективное обучение с подкреплением (Reinforcement Learning - RL):
БЯМ учатся "рассуждать" (chain-of-thought), генерируя ход мысли перед ответом. Модель оценивается и по мысли, и по ответу, обучаясь с подкреплением (награда за верное соответствие данным).
Создание данных для обучения "рассуждениям" дорого. Инновация DeepSeek: Они просто просили модель помещать мысли между тегами <think>
и </think>
, а ответы — между <answer>
и </answer>
. Награда/штраф давались только за правильное использование тегов и соответствие ответа. Это требовало гораздо менее дорогих данных.
Сначала модель генерировала мало "мыслей", что вело к ошибкам. Затем наступил "момент озарения" (a-ha moment): модель научилась создавать длинные и связные рассуждения, что резко повысило качество ответов.
DeepSeek использует и другие оптимизации, но они слишком технически сложны для детального описания здесь.
Перспективы рынка
В любой технологической гонке сначала исследуют пределы возможного, затем оптимизируют. Вклад DeepSeek в развитие БЯМ феноменaлен. Его академическая ценность неоспорима, независимо от споров о данных для обучения. Это может изменить подход стартапов.
Однако OpenAI и гигантам не стоит отчаиваться. Так работает наука: группы строят на фундаменте друг друга. DeepSeek явно воспользовался исследованиями Google, OpenAI и многих других.
Идея о вечном доминировании OpenAI на рынке БЯМ теперь кажется маловероятной. Никакое лоббирование регуляторов или взаимные обвинения не сохранят их монополию. Технологии уже в руках многих и открыты, делая их прогресс неостановимым. Хотя это может беспокоить инвесторов OpenAI, для остального мира это победа. Будущее принадлежит множеству игроков, но мы всегда будем благодарны пионерам вроде Google и OpenAI.
0 комментариев