На прошлой неделе компания Элона Маска xAI наделала много шума, выпустив чатбота Grok-2 с большой языковой моделью (LLM), доступного по подписке стоимостью 8 долларов США в месяц в социальной сети X.
Теперь обе версии Grok-2 - Grok-2 и Grok-2 mini, менее мощная, но более быстрая, - увеличили скорость анализа информации и вывода ответов после того, как два разработчика из xAI за последние три дня полностью переписали стек кода умозаключений.Как сообщил сегодня днем разработчик xAI Игорь Бабушкин в социальной сети X под своим логином @ibab:
«Grok 2 mini теперь в 2 раза быстрее, чем вчера. За последние три дня @lm_zheng и @MalekiSaeed переписали наш стек выводов с нуля, используя SGLang. Это также позволило нам обслуживать большую модель Grok 2, которая требует многохостового вывода, с разумной скоростью. Обе модели стали не только быстрее, но и немного точнее. Следите за дальнейшими улучшениями скорости!»Разработчики, ответственные за это, - Лянмин Чжэн и Саид Малеки, говорится в сообщении Бабушкина.
Чтобы переписать вывод для Grok-2, они использовали SGLang, высокоэффективную систему с открытым исходным кодом (лицензия Apache 2.0) для выполнения сложных программ языковых моделей, достигающую в 6,4 раза большей пропускной способности, чем существующие системы.
SGLang был разработан исследователями из Стэнфордского университета, Калифорнийского университета в Беркли, Техасского университета A&M и Шанхайского университета Цзяо Тун. Он объединяет в себе язык внешнего исполнения и внутреннюю среду исполнения для упрощения программирования приложений языковых моделей.
Система универсальна, поддерживает множество моделей, включая Llama, Mistral и LLaVA, и совместима с открытыми моделями на основе API, такими как GPT-4 от OpenAI. Способность SGLang оптимизировать выполнение за счет автоматического повторного использования кэша и параллелизма в рамках одной программы делает его мощным инструментом для разработчиков, работающих с крупномасштабными языковыми моделями.
0 комментариев