Главная Технологическая индустрия Агентский инструмент искусственного интеллекта Omn...

Агентский инструмент искусственного интеллекта OmniParser от Microsoft стремительно набирает популярность

Агентский инструмент искусственного интеллекта OmniParser от Microsoft стремительно набирает популярность в чартах ПО с открытым исходным кодом

OmniParser от Microsoft на верном пути.

Новая модель с открытым исходным кодом, которая преобразует скриншоты в формат, более понятный агентам ИИ, была выпущена Редмондом в начале этого месяца, но только на этой неделе стала самой популярной моделью (согласно последним загрузкам) в репозитории кода ИИ Hugging Face.Это также первая связанная с агентами модель, которая делает это, согласно сообщению на X соучредителя и генерального директора Hugging Face Клема Деланга.

Но что именно представляет собой OmniParser и почему он внезапно привлекает столько внимания?

По своей сути OmniParser — это генеративная модель ИИ с открытым исходным кодом, разработанная для того, чтобы помочь большим языковым моделям (LLM), особенно тем, которые поддерживают зрение, таким как GPT-4V, лучше понимать и взаимодействовать с графическими пользовательскими интерфейсами (GUI).

Выпущенный относительно тихо корпорацией Microsoft, OmniParser может стать важным шагом на пути к тому, чтобы генеративные инструменты могли перемещаться и понимать экранные среды. Давайте разберемся, как работает эта технология и почему она так быстро набирает популярность.

Что такое OmniParser?

OmniParser — это по сути мощный новый инструмент, предназначенный для анализа снимков экрана в структурированные элементы, которые может понимать и использовать модель языка зрения (VLM). Поскольку LLM все больше интегрируются в повседневные рабочие процессы, Microsoft осознала необходимость бесперебойной работы ИИ в различных графических интерфейсах. Проект OmniParser направлен на то, чтобы предоставить агентам ИИ возможность видеть и понимать макеты экрана, извлекая важную информацию, такую как текст, кнопки и значки, и преобразуя ее в структурированные данные.

Это позволяет таким моделям, как GPT-4V, понимать эти интерфейсы и действовать автономно от имени пользователя для задач, которые варьируются от заполнения онлайн-форм до нажатия на определенные части экрана.

Хотя концепция взаимодействия с графическим интерфейсом для ИИ не является совершенно новой, эффективность и глубина возможностей OmniParser выделяются. Предыдущие модели часто испытывали трудности с навигацией по экрану, особенно при определении определенных кликабельных элементов, а также при понимании их семантического значения в рамках более широкой задачи. Подход Microsoft использует комбинацию расширенного обнаружения объектов и OCR (оптического распознавания символов) для преодоления этих препятствий, что приводит к более надежной и эффективной системе анализа.

Технология, лежащая в основе OmniParser

Сила OmniParser заключается в использовании различных моделей ИИ, каждая из которых выполняет определенную роль:

YOLOv8: обнаруживает интерактивные элементы, такие как кнопки и ссылки, предоставляя ограничивающие рамки и координаты. По сути, он определяет, с какими частями экрана можно взаимодействовать.

BLIP-2: анализирует обнаруженные элементы, чтобы определить их назначение. Например, он может определить, является ли значок кнопкой «отправить» или ссылкой «навигация», предоставляя важный контекст.

GPT-4V: использует данные из YOLOv8 и BLIP-2 для принятия решений и выполнения таких задач, как нажатие кнопок или заполнение форм. GPT-4V обрабатывает рассуждения и принятие решений, необходимые для эффективного взаимодействия.

Кроме того, модуль OCR извлекает текст с экрана, что помогает понимать метки и другой контекст вокруг элементов графического интерфейса. Объединяя обнаружение, извлечение текста и семантический анализ, OmniParser предлагает готовое решение, работающее не только с GPT-4V, но и с другими моделями машинного зрения, что повышает его универсальность.