Компания Salesforce представила комплексное исследование, направленное на решение одной из самых острых проблем искусственного интеллекта в бизнесе: разрыва между мощностью ИИ-систем и их способностью стабильно работать в сложных корпоративных условиях. Этот феномен исследователи Salesforce называют "неровным интеллектом"
Исследовательское подразделение Salesforce AI Research анонсировало новые тестовые методики (бенчмарки), модели и фреймворки. Их цель — сделать ИИ-агентов умнее, надежнее и универсальнее для корпоративного применения. Инновации призваны повысить как возможности систем ИИ, так и их стабильность, особенно при работе в качестве автономных агентов в сложных бизнес-процессах.
Почему "сырой" интеллект — недостаточен для бизнеса
"Хотя большие языковые модели (LLM) могут превосходно сдавать стандартные тесты, планировать сложные поездки или сочинять изысканную поэзию, их блеск часто меркнет, когда требуется надежное и последовательное выполнение задач в динамичной, непредсказуемой бизнес-среде", — заявил Сильвио Саварезе (Silvio Savarese), главный научный сотрудник и руководитель Salesforce AI Research, на пресс-конференции.
Эта инициатива — шаг к тому, что Саварезе называет "Общим Интеллектом для Бизнеса" (Enterprise General Intelligence, EGI) — ИИ, созданным специально для корпоративной сложности, в отличие от более теоретического Искусственного Общего Интеллекта (AGI).
"Мы определяем EGI как специализированных ИИ-агентов для бизнеса, оптимизированных не только по возможностям, но и по стабильности работы", — пояснил Саварезе. "Пока AGI рисует образы сверхразумных машин, бизнес не ждет этого далекого будущего. Он применяет базовые концепции ИИ сейчас для решения реальных задач в масштабе".
Как измерить и устранить непредсказуемость ИИ
Ключевой элемент исследования — количественная оценка и устранение нестабильности ИИ. Salesforce представила набор данных SIMPLE — открытый бенчмарк из 225 простых логических вопросов, призванных измерить степень "неровности" способностей ИИ-системы.
"Современный ИИ работает неровно, и нам нужно это исправлять. Но как работать над проблемой, не измерив ее сначала? Именно для этого создан бенчмарк SIMPLE", — объяснила Шелби Хайнеке (Shelby Heinecke), старший менеджер по исследованиям Salesforce.
Для бизнес-приложений эта нестабильность — не просто академический вопрос. Одна ошибка ИИ-агента может нарушить процессы, подорвать доверие клиентов или нанести значительный финансовый ущерб.
"Для бизнеса ИИ — не развлечение, а критически важный инструмент, требующий абсолютной предсказуемости", — подчеркнул Саварезе.
CRMArena: Виртуальный полигон для тестирования бизнес-ИИ
Наиболее значимой инновацией стал CRMArena — новый фреймворк для тестирования, моделирующий реалистичные сценарии управления клиентскими отношениями (CRM). Он позволяет комплексно тестировать ИИ-агентов в профессиональном контексте, закрывая разрыв между академическими тестами и реальными бизнес-задачами.
"Понимая, что текущие модели ИИ часто не отражают сложность корпоративных сред, мы создали CRMArena: тщательно продуманную среду тестирования, моделирующую реалистичные CRM-сценарии", — сказал Саварезе.
Фреймворк оценивает работу агентов в трех ключевых ролях: сервисный агент, аналитик и менеджер. Первые тесты показали, что даже с подсказками ведущие агенты успешно выполняют необходимые функции (function-calling) для этих ролей менее чем в 65% случаев.
"CRMArena — это внутренний инструмент для совершенствования агентов, — пояснил Саварезе. — Он позволяет проводить стресс-тесты, понимать причины сбоев и использовать эти знания для улучшения агентов".
Новые модели для глубокого понимания бизнес-контекста
Среди технических новинок выделяется SFR-Embedding — модель для более глубокого контекстного понимания, занявшая лидирующие позиции в бенчмарке Massive Text Embedding Benchmark (MTEB) по 56 наборам данных.
"SFR-Embedding — это не только исследование. Она скоро появится в Data Cloud", — отметила Хайнеке.
Также представлена версия SFR-Embedding-Code для разработчиков, обеспечивающая качественный поиск по коду и ускорение разработки. По заявлению Salesforce, версия на 7 миллиардов параметров лидирует в бенчмарке Code Information Retrieval (CoIR), а более компактные модели (400M, 2B) предлагают экономичные альтернативы.
Меньше — лучше? Компактные модели для бизнес-задач
Salesforce анонсировала xLAM V2 (Large Action Model) — семейство моделей, спроектированных специально для предсказания действий, а не просто генерации текста. Их размер начинается всего с 1 миллиарда параметров — это крошечная доля по сравнению с ведущими LLM.
"Особенность наших моделей xLAM — в их размерах: от 1B до 70B. Например, модель на 1B — это малая часть современных больших языковых моделей, — объяснила Хайнеке. — Эта компактная модель обладает огромной силой в прогнозировании следующего действия".
В отличие от стандартных языковых моделей, эти "экшен-модели" специально обучены предсказывать и выполнять следующие шаги в последовательности задач, что делает их особенно ценными для автономных агентов, взаимодействующих с корпоративными системами.
"Большие модели действий (LAM) технически основаны на LLM. Мы берем языковую модель и дообучаем ее на так называемых 'траекториях действий'", — добавила Хайнеке.
Безопасность бизнес-ИИ: "Ограничители" от Salesforce
Для решения проблем безопасности и надежности Salesforce представила SFR-Guard — семейство моделей, обученных как на открытых данных, так и на специализированных внутренних CRM-данных. Они усиливают "Систему безопасности" (Trust Layer) компании, задающую границы поведения ИИ-агентов.
"Защитные механизмы Agentforce устанавливают четкие границы для агентов, основанные на бизнес-требованиях, политиках и стандартах, гарантируя работу в заданных рамках", — заявила компания.
Также запущен ContextualJudgeBench — новый бенчмарк для оценки LLM-"судей" в контексте, тестирующий более 2000 сложных пар ответов на точность, лаконичность, достоверность и уместность отказа отвечать.
Выходя за рамки текста, Salesforce представила TACO — семейство мультимодальных моделей действий для решения сложных многошаговых задач через цепочки "мысль-действие" (CoTA). По заявлению компании, этот подход дает до 20% улучшения в сложном бенчмарке MMVet.
Разработка с клиентами: Обратная связь формирует будущее ИИ
Итай Ассео (Itai Asseo), старший директор по инкубации и стратегии бренда в AI Research, подчеркнул важность совместной разработки с клиентами (co-innovation) для создания готовых к работе бизнес-решений.
"Главная боль клиентов при работе с корпоративными данными — крайне низкая терпимость к неточным или нерелевантным ответам ИИ, — объяснил Ассео. — Мы достигли значительного прогресса с помощью механизмов рассуждений (reasoning engines), методов RAG и других подходов вокруг LLM".
Ассео привел примеры, когда обратная связь клиентов привела к улучшениям: "Применяя наш механизм рассуждений Atlas, включая продвинутые методы поисково-усиленной генерации (RAG), вместе с нашей методологией и архитектурой 'агентских циклов' (agentic loop), мы добились точности, вдвое превышающей результаты клиентов с основными конкурентами".
Дорога к Общему Интеллекту для Бизнеса: Что дальше?
Исследовательский рывок Salesforce происходит в критический момент внедрения ИИ в бизнесе, когда компании все больше нуждаются в системах, сочетающих передовые возможности с надежной работой.
Пока вся индустрия гонится за все более крупными моделями, фокус Salesforce на проблеме стабильности демонстрирует более тонкий подход к разработке ИИ — ставящий реальные бизнес-требования выше академических тестов.
Анонсированные технологии начнут внедряться в ближайшие месяцы: SFR-Embedding первой появится в Data Cloud, а другие инновации войдут в будущие версии Agentforce.
Как отметил Саварезе на пресс-конференции: "Речь не о замене людей. Речь о контроле". В гонке за доминирование в корпоративном ИИ Salesforce делает ставку на то, что победителей бизнес-революции ИИ определят не только мощь интеллекта, но и его стабильность и надежность.
0 комментариев