Эта статья является частью специального выпуска VentureBeat «ИИ в масштабе: от видения к жизнеспособности». Подробнее об этом специальном выпуске читайте здесь.
Повсюду видны признаки того, что периферийные вычисления собираются преобразовать ИИ, каким мы его знаем. По мере того, как ИИ выходит за рамки централизованных центров обработки данных, мы видим, как смартфоны локально запускают сложные языковые модели, интеллектуальные устройства обрабатывают компьютерное зрение на периферии, а автономные транспортные средства принимают решения за доли секунды без подключения к облаку.
Почему частные вычисления должны быть частью вашей стратегии ИИ — AI Impact Tour 2024 Почему частные вычисления должны быть частью вашей стратегии ИИ — AI Impact Tour 2024
«Сейчас большое внимание в сфере ИИ уделяется обучению, что имеет смысл в традиционных гипермасштабных публичных облаках», — сказала Рита Козлов, вице-президент по продуктам в Cloudflare. «Вам нужно несколько мощных машин, расположенных близко друг к другу, чтобы выполнять действительно большие рабочие нагрузки, и эти кластеры машин — то, что будет предсказывать погоду или моделировать новое фармацевтическое открытие. Но мы находимся прямо на пороге перехода рабочих нагрузок ИИ от обучения к выводу, и именно здесь мы видим, что периферия становится доминирующей парадигмой».
Козлов прогнозирует, что вывод будет постепенно приближаться к пользователям — либо работать непосредственно на устройствах, как в автономных транспортных средствах, либо на периферии сети. «Чтобы ИИ стал частью повседневной жизни обычного человека, он будет ожидать, что он будет мгновенным и бесшовным, точно так же, как изменились наши ожидания относительно производительности веб-сайтов, когда мы стали носить смартфоны в карманах и начали полагаться на него для каждой транзакции», — объяснила она. «И поскольку не каждое устройство будет иметь мощность или время автономной работы, чтобы делать вывод, периферия — это следующее лучшее место».
Однако этот сдвиг в сторону периферийных вычислений не обязательно сократит использование облака, как предсказывали многие. Вместо этого распространение периферийного ИИ приводит к увеличению потребления облака, раскрывая взаимозависимость, которая может изменить стратегии корпоративного ИИ. Фактически, вывод периферии представляет собой лишь последний шаг в сложном конвейере ИИ, который в значительной степени зависит от облачных вычислений для хранения данных, обработки и обучения моделей.
Новое исследование Гонконгского университета науки и технологий и Microsoft Research Asia демонстрирует, насколько глубока эта зависимость — и почему роль облака может фактически стать более важной по мере расширения периферийного ИИ. Обширное тестирование исследователей выявило сложное взаимодействие, необходимое между облаком, периферией и клиентскими устройствами для более эффективной работы задач ИИ.
Как периферия и облако дополняют друг друга в развертываниях ИИ
Чтобы точно понять, как эта связь облака и периферии работает на практике, исследовательская группа создала тестовую среду, отражающую реальные корпоративные развертывания. Их экспериментальная установка включала облачные серверы Microsoft Azure для оркестровки и интенсивной обработки, периферийный сервер GeForce RTX 4090 для промежуточных вычислений и платы Jetson Nano, представляющие клиентские устройства. Эта трехслойная архитектура выявила точные вычислительные требования на каждом уровне.
Ключевой тест включал обработку пользовательских запросов, выраженных на естественном языке. Когда пользователь просил систему проанализировать фотографию, GPT, работающий на облачном сервере Azure, сначала интерпретировал запрос, а затем определял, какие специализированные модели ИИ следует вызвать. Для задач классификации изображений он развернул модель Vision Transformer, в то время как субтитры изображений и визуальные вопросы использовали самообучение языка и изображения (BLIP). Это продемонстрировало, как облачные серверы должны справляться со сложной оркестровкой нескольких моделей ИИ даже для, казалось бы, простых запросов.
Самое важное открытие команды было сделано, когда они сравнили три разных подхода к обработке. Вывод только на периферии, который опирался исключительно на сервер RTX 4090, хорошо работал, когда пропускная способность сети превышала 300 КБ/с, но резко падал при падении скорости. Вывод только на клиенте, работающий на платах Jetson Nano, избегал узких мест в сети, но не мог справиться со сложными задачами, такими как визуальные ответы на вопросы. Гибридный подход — разделение вычислений между периферией и клиентом — оказался наиболее устойчивым, сохраняя производительность даже при падении пропускной способности ниже оптимального уровня.
Эти ограничения побудили команду разработать новые методы сжатия специально для рабочих нагрузок ИИ. Их метод, ориентированный на задачи, достиг замечательной эффективности: сохраняя точность классификации изображений 84,02%, при этом сокращая передачу данных с 224 КБ до всего лишь 32,83 КБ на экземпляр. Для подписей изображений они сохранили высококачественные результаты (двуязычный дублер оценки — BLEU — баллы 39,58 против 39,66), при этом сократив требования к пропускной способности на 92%. Эти улучшения демонстрируют, как системы периферийного облака должны развивать специализированные оптимизации для эффективной работы.
0 комментариев