бургерЛого хедера
Поиск
avatar

Китайский ИИ DeepSeek бросил вызов OpenAI, сделав ставку на эффективность

Казавшиеся непобедимыми OpenAI и американские технологические гиганты были ошеломлены появлением настоящего "темного коня" в области больших языковых моделей (БЯМ). DeepSeek, китайская компания, ранее не привлекавшая внимания, неожиданно бросила вызов лидеру.

image

DeepSeek-R1 не превзошла топ-модели американских гигантов по бенчмаркам, немного уступая им, однако заставила всех задуматься об эффективности использования аппаратных ресурсов и энергии.

Эффективность вместо мощности
Лишенные доступа к лучшим аппаратным решениям, инженеры DeepSeek сосредоточились на инновациях в области оптимизации, которой крупные игроки уделяли меньше внимания. OpenAI заявляет о возможном использовании DeepSeek их модели для обучения, но убедительных доказательств этому нет. Истинность этих заявлений или их цель — успокоить инвесторов — остается предметом дискуссий. Тем не менее, DeepSeek открыто опубликовал свои разработки, и независимые эксперты подтвердили воспроизводимость результатов, по крайней мере, в меньших масштабах.

Как DeepSeek достиг экономии?
Почему американские компании не смогли добиться такой экономии? Короткий ответ: у них не было столь сильной мотивации. Подробный ответ требует технических деталей.

  1. Оптимизация кэша ключей-значений (KV-cache): Значительную экономию видеопамяти GPU дала оптимизация KV-cache, используемого в каждом слое внимания (attention layer) БЯМ.

    • БЯМ построены на блоках-трансформерах, каждый содержит слой внимания и полносвязную сеть (feed-forward network). Слой внимания решает задачу учета контекста при моделировании языка.

    • Каждое слово (точнее, токен) представляется вектором в многомерном пространстве, где каждая размерность — некий признак (цвет, твердость, часть речи). Значение вектора — смысл слова.

    • Слова влияют друг на друга (например, "зеленое" меняет смысл "яблока"). Для этого каждому слову сопоставляются вектор ключа (Key) и вектор запроса (Query). "Запрос" слова указывает, какие его признаки могут меняться, а "ключ" — как оно может влиять на другие слова.

    • Скалярное произведение ключа одного слова и запроса другого определяет силу влияния. Слой внимания добавляет часть вектора значения (Value) влияющего слова к вектору значения целевого слова.

    • При генерации текста пошагово, ключи и значения всех предыдущих слов хранятся в памяти GPU (это и есть KV-кэш) для расчета влияния на новое слово.

    • Инновация DeepSeek: Они обнаружили сильную связь между ключом и значением слова (например, смысл "зеленого" и его способность влиять на "зеленость"). Это позволило сжимать их в один (возможно, меньший) вектор и легко восстанавливать при обработке. Это экономит память GPU ценой незначительного падения точности в тестах.

    Применение "Смеси экспертов" (Mixture of Experts - MoE):

    • В обычной нейросети все ее части вычисляются для каждого запроса, даже если они не релевантны вопросу (знания об Эйфелевой башне не нужны для истории племен Амазонии). Это приводит к большим вычислительным затратам.

    • В модели MoE нейросеть делится на множество мелких подсетей ("экспертов"). Для каждого запроса вычисляется релевантность каждого "эксперта", и активируются только наиболее подходящие. Это дает огромную экономию вычислений.

    • Вопросы, требующие знаний из нескольких областей, могут обрабатываться чуть хуже, но такие случаи минимизированы, так как области определяются данными при обучении.

    Эффективное обучение с подкреплением (Reinforcement Learning - RL):

    • БЯМ учатся "рассуждать" (chain-of-thought), генерируя ход мысли перед ответом. Модель оценивается и по мысли, и по ответу, обучаясь с подкреплением (награда за верное соответствие данным).

    • Создание данных для обучения "рассуждениям" дорого. Инновация DeepSeek: Они просто просили модель помещать мысли между тегами <think> и </think>, а ответы — между <answer> и </answer>. Награда/штраф давались только за правильное использование тегов и соответствие ответа. Это требовало гораздо менее дорогих данных.

    • Сначала модель генерировала мало "мыслей", что вело к ошибкам. Затем наступил "момент озарения" (a-ha moment): модель научилась создавать длинные и связные рассуждения, что резко повысило качество ответов.

DeepSeek использует и другие оптимизации, но они слишком технически сложны для детального описания здесь.

Перспективы рынка
В любой технологической гонке сначала исследуют пределы возможного, затем оптимизируют. Вклад DeepSeek в развитие БЯМ феноменaлен. Его академическая ценность неоспорима, независимо от споров о данных для обучения. Это может изменить подход стартапов.

Однако OpenAI и гигантам не стоит отчаиваться. Так работает наука: группы строят на фундаменте друг друга. DeepSeek явно воспользовался исследованиями Google, OpenAI и многих других.

Идея о вечном доминировании OpenAI на рынке БЯМ теперь кажется маловероятной. Никакое лоббирование регуляторов или взаимные обвинения не сохранят их монополию. Технологии уже в руках многих и открыты, делая их прогресс неостановимым. Хотя это может беспокоить инвесторов OpenAI, для остального мира это победа. Будущее принадлежит множеству игроков, но мы всегда будем благодарны пионерам вроде Google и OpenAI.

0 комментариев

Вас могут заинтересовать