В воскресенье Microsoft представила интерактивную демонстрацию своей новой технологии MInference на ИИ-платформе Hugging Face, продемонстрировав потенциальный прорыв в скорости обработки больших языковых моделей.
Демонстрация, созданная на базе Gradio, позволяет разработчикам и исследователям протестировать новейшее достижение Microsoft в области обработки длинных текстовых данных для систем искусственного интеллекта прямо в веб-браузере.
MInference, что расшифровывается как "Million-Tokens Prompt Inference", призван значительно ускорить этап "предварительного заполнения" языковой модели - этап, который обычно становится узким местом при работе с очень длинными текстовыми данными. Исследователи Microsoft сообщают, что MInference может сократить время обработки на 90% при вводе одного миллиона лексем (что эквивалентно примерно 700 страницам текста) при сохранении точности."Вычислительные проблемы, связанные с вычислением LLM, остаются существенным препятствием для их широкого внедрения, особенно по мере увеличения длины подсказок. Из-за квадратичной сложности вычислений внимания, для обработки подсказки из 1M токенов на одном GPU [Nvidia] A100 требуется 30 минут для 8B LLM", - отмечает исследовательская группа в своей работе, опубликованной на arXiv. "MInference эффективно сокращает время ожидания вывода до 10 раз при предварительном заполнении на A100, сохраняя при этом точность".Однако последствия применения MInference выходят за рамки простого повышения скорости. Способность технологии выборочно обрабатывать части длинных текстов поднимает важные вопросы о сохранении информации и потенциальной предвзятости. Хотя исследователи заявляют о сохранении точности, сообществу ИИ придется тщательно изучить вопрос о том, может ли этот механизм избирательного внимания непреднамеренно отдавать предпочтение определенным типам информации перед другими, потенциально влияя на понимание модели или ее вывод в тонких аспектах.
Кроме того, подход MInference к динамическому разреженному вниманию может иметь значительные последствия для энергопотребления ИИ. Сокращая вычислительные ресурсы, необходимые для обработки длинных текстов, эта технология может способствовать тому, что большие языковые модели станут более экологичными. Этот аспект согласуется с растущей обеспокоенностью по поводу "углеродного следа" систем ИИ и может повлиять на направление будущих исследований в этой области.
0 комментариев