Какое-то время казалось, что Amazon пытается догнать конкурентов в гонке за то, чтобы предложить своим пользователям — в частности, миллионам разработчиков, работающих на основе облачной инфраструктуры Amazon Web Services (AWS) — привлекательные собственные модели и инструменты искусственного интеллекта.
Но в конце 2024 года компания представила собственное внутреннее семейство моделей Amazon Nova с возможностями генерации текста, изображений и даже видео, а в прошлом месяце появился новый голосовой помощник Amazon Alexa, частично работающий на основе семейства моделей Claude компании Anthropic.
Затем, в понедельник, подразделение искусственного интеллекта Amazon AGI, гиганта электронной коммерции и облачных вычислений, объявило о выпуске Amazon Nova Act, экспериментального комплекта разработчика для создания агентов ИИ, которые могут перемещаться по сети и выполнять задачи автономно, на основе пользовательской, фирменной версии большой языковой модели Amazon Nova (LLM). О, и стандартный комплект разработчика (SDK) имеет открытый исходный код под разрешительной лицензией Apache 2.0, хотя SDK предназначен для работы только с собственной пользовательской моделью Nova компании Amazon, а не со сторонними.
Цель состоит в том, чтобы позволить сторонним разработчикам создавать агентов ИИ, способных надежно выполнять задачи в веб-браузерах.
Но как Nova Act от Amazon соотносится с другими платформами создания агентов, представленными на рынке, такими как AutoGen от Microsoft, Agentforce от Salesforce и, конечно, недавно выпущенный OpenAI Agents SDK с открытым исходным кодом?
Другой, более продуманный подход к агентам ИИ
С тех пор, как широко распространились большие языковые модели (LLM), большинство систем «агентов» были ограничены ответами на естественном языке или предоставлением информации путем запросов к базам знаний.
Nova Act является частью более масштабного сдвига отрасли в сторону агентов на основе действий — систем, которые могут выполнять реальные задачи в цифровых средах от имени пользователя. Новый API Responses от OpenAI, который предоставляет пользователям доступ к его автономному браузерному навигатору, является одним из ярких примеров этого, который разработчики могут интегрировать в агентов ИИ через OpenAI Agents SDK.
Amazon AGI подчеркивает, что текущие системы агентов, хотя и многообещающие, испытывают трудности с надежностью и часто требуют человеческого контроля, особенно при обработке многоэтапных или сложных рабочих процессов.
Nova Act специально разработан для устранения этих ограничений путем предоставления набора атомарных, предписывающих команд, которые можно объединить в надежные рабочие процессы.
Дениз Бирликчи, член технического персонала Amazon, описал более широкое видение в видеоролике, представляющем Nova Act: скоро агентов ИИ будет больше, чем людей, просматривающих веб-страницы, выполняющих задачи от имени пользователей.
Дэвид Луан, вице-президент группы автономии Amazon и руководитель лаборатории AGI SF, более конкретно сформулировал миссию в недавнем видеозвонке VentureBeat: «Мы создали эту новую экспериментальную модель ИИ, которая обучена выполнять действия в веб-браузере. По сути, мы считаем, что агенты являются строительным блоком вычислений», — сказал он.
Луан, бывший соучредитель и генеральный директор Adept AI, присоединился к Amazon в 2024 году в рамках aqcui-hire. Луан сказал, что он давно является сторонником агентов ИИ. «С Adept мы были первой компанией, которая действительно начала работать над агентами ИИ. На этом этапе все знают, насколько важны агенты. Было довольно круто немного опередить свое время», — добавил он.
Что Nova Act предлагает разработчикам
Nova Act SDK предоставляет разработчикам фреймворк для создания веб-агентов автоматизации с использованием подсказок на естественном языке, разбитых на понятные, управляемые шаги.
В отличие от типичных агентов на базе LLM, которые пытаются выполнить целые рабочие процессы из одного подсказки — часто приводя к ненадежному поведению — Nova Act разработан для постепенного выполнения более мелких, проверяемых задач.
Некоторые из ключевых особенностей Nova Act включают:
Тонкая декомпозиция задач: разработчики могут разбивать сложные цифровые рабочие процессы на более мелкие вызовы act(), каждый из которых направляет агента на выполнение определенных взаимодействий пользовательского интерфейса.
Прямая манипуляция браузером через Playwright: Nova Act интегрируется с Playwright, фреймворком автоматизации браузера с открытым исходным кодом, разработанным Microsoft. Playwright позволяет разработчикам программно управлять веб-браузерами — нажимать на элементы, заполнять формы или перемещаться по страницам — не полагаясь исключительно на прогнозы ИИ. Эта интеграция особенно полезна для обработки конфиденциальных задач, таких как ввод паролей или данных кредитной карты. Например, вместо отправки конфиденциальной информации в модель, разработчики могут поручить Nova Act сосредоточиться на поле пароля, а затем использовать API Playwright для безопасного ввода пароля, чтобы модель его не «увидела». Такой подход помогает усилить безопасность и конфиденциальность при автоматизации веб-взаимодействий.
Интеграция с Python: SDK позволяет разработчикам чередовать код Python с командами Nova Act, включая стандартные инструменты Python, такие как точки останова, утверждения или пул потоков для параллельного выполнения.
Извлечение структурированной информации: SDK поддерживает извлечение структурированных данных с помощью схем Pydantic, позволяя агентам преобразовывать содержимое экрана в структурированные форматы.
Распараллеливание и планирование: разработчики могут запускать несколько экземпляров Nova Act одновременно и планировать автоматизированные рабочие процессы без необходимости постоянного человеческого контроля.
Луан подчеркнул, что Nova Act — это инструмент для разработчиков, а не универсальный инструмент.
0 комментариев