бургерЛого хедера
Поиск
avatar

Snowflake Openflow: Упрощаем загрузку данных для ИИ с гарантией безопасности

Создание надежной основы данных для искусственного интеллекта – задача нетривиальная, особенно при множестве источников. Компания Snowflake представляет универсальное решение для автоматизированного сбора и подготовки информации.

image

Для специалистов в области ИИ не секрет, что «главный приз – это данные». Надежная основа данных гарантирует эффективность моделей и приложений, работающих на их основе.

Однако построение такой основы – непростая задача. Особенно остро проблема встает при наличии десятков источников, каждый из которых содержит ценную информацию. Необходимо создавать и поддерживать отдельные интеграционные конвейеры для каждого источника – это создает значительную инженерную нагрузку на команды данных. Им приходится управлять разрозненными инструментами ETL (извлечение, преобразование, загрузка), чтобы централизовать информацию, необходимую для работы ИИ-систем. В крупных масштабах такие конвейеры превращаются в жесткие ограничители – их сложно адаптировать, расширять или масштабировать.

Компания Snowflake заявляет, что нашла ответ на этот вызов.

На своем ежегодном саммите компания объявила о выходе в открытую продажу сервиса Snowflake Openflow. Это полностью управляемый сервис для загрузки данных, способный извлекать информацию практически любого типа из самых разных источников. Его цель – упростить и ускорить подготовку данных для развертывания ИИ-решений.

Как это работает?

В основе Openflow лежит технология Apache NiFi. Сервис использует коннекторы (как готовые, так и созданные на заказ), интегрированные со встроенными механизмами управления и безопасности Snowflake. Независимо от того, идет ли речь о неструктурированном мультимодальном контенте из Box или о потоках событий в реальном времени, Openflow подключается к источнику, унифицирует данные и делает все их типы доступными для использования в «Облаке данных для ИИ» (AI Data Cloud) Snowflake.

«Перед инженерами данных часто стоял сложный выбор: либо высоко контролируемые конвейеры, сопряженные со сложностью и управлением инфраструктурой, либо простое решение, но с ограниченной гибкостью, кастомизацией и проблемами конфиденциальности. Openflow работает с данными там, где они находятся, обеспечивая гибкость развертывания и гарантируя безопасность и управление на всем пути», – пояснил Крис Чайлд (Chris Child), вице-президент по продуктам в области инженерии данных Snowflake, в разговоре с VentureBeat.

Хотя Snowflake уже предлагала решения для загрузки данных, такие как Snowpipe для потоковой передачи или отдельные коннекторы, Openflow позиционируется как «комплексное и простое решение для загрузки практически всех корпоративных данных».

«Snowpipe и Snowpipe Streaming остаются ключевой основой для загрузки данных в Snowflake, фокусируясь на этапе "загрузки" (Load) процесса ETL. Openflow, с другой стороны, берет на себя "извлечение" (Extract) данных напрямую из исходных систем, а затем выполняет этапы "преобразования" (Transform) и "загрузки" (Load). Сервис также интегрирован с нашей новой архитектурой Snowpipe Streaming, что позволяет передавать данные в Snowflake потоком сразу после извлечения», – добавил Чайлд.

Это открывает новые возможности для ИИ, позволяя анализировать полную картину корпоративных данных – включая документы, изображения и события в реальном времени – непосредственно в Snowflake. Полученные аналитические данные затем могут быть возвращены в исходную систему через тот же коннектор.

Более 200 готовых коннекторов

На старте Openflow поддерживает свыше 200 готовых к использованию коннекторов и процессоров. Среди них – сервисы Box, Google Ads, Microsoft SharePoint, Oracle, Salesforce Data Cloud, Workday и Zendesk.

«Интеграция Box с Snowflake Openflow… использует извлечение данных из Box с помощью нашего ИИ (Box AI), соблюдает исходные права доступа для безопасной работы и передает эти данные в Snowflake для анализа. Она также обеспечивает двусторонний поток, при котором обогащенные аналитические данные или метаданные могут записываться обратно в Box, повышая ценность контента со временем», – отметил Бен Кус (Ben Kus), технический директор Box.

Создание новых коннекторов занимает считанные минуты, что ускоряет получение результата. Пользователи также получают функции безопасности, такие как авторизация на основе ролей, шифрование при передаче и управление секретами для сквозной защиты данных.

«Организации, которым требуется интеграция данных в реальном времени, которые работают с большими объемами информации из различных источников или используют неструктурированные данные (изображения, аудио, видео) для извлечения пользы, получат огромные преимущества от Openflow», – подчеркнул Чайлд. Например, розничная компания может объединить разрозненные данные о продажах, электронной коммерции, CRM и социальных сетях для создания персонализированного опыта и оптимизации операций.

Среди клиентов Snowflake, которые уже планируют использовать Openflow для перемещения и масштабирования глобальных данных, значатся Irwin, Securonix и WorkWave (точные цифры внедрения не раскрываются).

Что дальше?

В качестве следующего шага Snowflake намерена сделать Openflow основой для перемещения интеллектуальных данных в реальном времени между распределенными системами – тем самым обеспечивая работу эпохи ИИ-агентов.

«Мы фокусируемся на передаче событий в огромных масштабах и обеспечении двусторонней коммуникации между агентами в реальном времени, чтобы аналитика и действия беспрепятственно передавались между распределенными системами. Например, агент Cortex может передавать события другим корпоративным агентам, например, из системы ServiceNow», – сказал Чайлд.

Сроки реализации этих улучшений пока не уточняются.

0 комментариев

Вас могут заинтересовать