бургерЛого хедера
Поиск
avatar

UI-TARS от ByteDance может захватить ваш компьютер, превзойдя GPT-4o и Claude

Новый агент ИИ появился в материнской компании TikTok, чтобы взять под контроль ваш компьютер и выполнять сложные рабочие процессы.

image

Подобно Computer Use от Anthropic, новый UI-TARS от ByteDance понимает графические пользовательские интерфейсы (GUI), применяет рассуждения и выполняет автономные пошаговые действия.

Почему частные вычисления должны быть частью вашей стратегии ИИ - AI Impact Tour 2024Почему частные вычисления должны быть частью вашей стратегии ИИ - AI Impact Tour 2024

Обученные примерно на 50 млрд токенов и предлагаемые в версиях с 7 млрд и 72 млрд параметров, агенты для ПК/MacOS достигают производительности самого современного уровня (SOTA) в более чем 10 тестах GUI по производительности, восприятию, заземлению и общим возможностям агента, постоянно превосходя OpenAI GPT-4o, Claude и Google Gemini.

«Благодаря итеративному обучению и настройке рефлексии UI-TARS постоянно учится на своих ошибках и адаптируется к непредвиденным ситуациям с минимальным вмешательством человека», — пишут исследователи из ByteDance и Университета Цинхуа в новой исследовательской статье.

Источник: Arxiv

Как UI-TARS объясняет свое мышление

UI-TARS работает в настольных, мобильных и веб-приложениях, используя мультимодальные входные данные (текст, изображения, взаимодействия) для понимания визуальной среды.

Его пользовательский интерфейс имеет две вкладки — одну слева, показывающую его пошаговое «мышление», и большую справа, где он подтягивает файлы, веб-сайты и приложения и автоматически выполняет действия.

Например, в демонстрационном видео, выпущенном сегодня, модели предлагается «Найти рейсы туда и обратно из ЮВА в Нью-Йорк 5-го числа и вернуться 10-го числа следующего месяца и отфильтровать по цене в порядке возрастания».

В ответ UI-TARS переходит на веб-сайт Delta Airlines, заполняет поля «от» и «до», щелкает по соответствующим датам, сортирует и фильтрует по цене, объясняя каждый шаг в своем окне размышлений перед выполнением действия.

В другом сценарии ему поручено установить расширение autoDocstring в VS Code. Вот пошаговый ход его размышлений по мере выполнения этой задачи:

Сначала он сообщает, что «чтобы продолжить установку расширения autoDocstring в VS Code, мне сначала нужно открыть приложение VS Code».

Осознавая, что окно VS Code не полностью загрузилось, модель отмечает, что «необходимо дождаться завершения инициализации приложения, прежде чем продолжить установку расширения autoDocstring. Это гарантирует, что все требуемые функции будут доступны для следующих шагов».

Затем он объясняет, что ему необходимо получить доступ к представлению Extensions в VS Code, что можно сделать, щелкнув вкладку на левой боковой панели.

Сталкиваясь с небольшим сбоем, он рассуждает так: «Предыдущая попытка нажать на вкладку «Расширения» могла быть недостаточно точной, поэтому я попробую нажать на нее еще раз, чтобы убедиться, что представление «Расширения» успешно открылось».

Оказавшись в представлении «Расширения», он вводит «autoDocstring», а затем заключает: «Поскольку процесс установки уже запущен, в данный момент никаких дальнейших действий не требуется. Я подожду завершения установки и подтвержу ее успешность, как только процесс будет завершен».

Превосходя своих конкурентов

Исследователи сообщают, что в различных тестах UI-TARS последовательно превосходит OpenAI GPT-4o; Anthropic's Claude-3.5-Sonnet; Gemini-1.5-Pro ​​и Gemini-2.0; четыре модели Qwen; и многочисленные академические модели.

Например, в VisualWebBench — который измеряет способность модели заземлять веб-элементы, включая обеспечение качества веб-страницы и оптическое распознавание символов — UI-TARS 72B набрал 82,8%, превзойдя GPT-4o (78,5%) и Claude 3.5 (78,2%).

Он также показал значительно лучшие результаты в тестах WebSRC (понимание семантического содержания и макета в веб-контексте) и ScreenQA-short (понимание сложных макетов мобильных экранов и веб-структуры). UI-TARS-7B достиг лидирующих результатов в 93,6% в WebSRC, в то время как UI-TARS-72B достиг 88,6% в ScreenQA-short, превзойдя Qwen, Gemini, Claude 3.5 и GPT-4o.

«Эти результаты демонстрируют превосходные возможности восприятия и понимания UI-TARS в веб- и мобильных средах», — пишут исследователи. «Такая перцептивная способность закладывает основу для задач агентов, где точное понимание окружающей среды имеет решающее значение для выполнения задач и принятия решений».

UI-TARS также показал впечатляющие результаты в ScreenSpot Pro и ScreenSpot v2, которые оценивают способность модели понимать и локализовать элементы в графических интерфейсах. Кроме того, исследователи протестировали его возможности в планировании многошаговых действий и низкоуровневых задач в мобильных средах и сравнили его с OSWorld (который оценивает открытые компьютерные задачи) и AndroidWorld (который оценивает автономных агентов по 116 программным задачам в 20 мобильных приложениях).

0 комментариев

Вас могут заинтересовать