Главная Технологическая индустрия Пакетная обработка данных слишком медленная для ИИ...

Пакетная обработка данных слишком медленная для ИИ в реальном времени: как Apache Airflow 3.0 с открытым исходным кодом решает проблему с помощью событийно-управляемой оркестровки данных

Перемещение данных из разных источников в нужное место для использования ИИ — сложная задача. Вот где подходят технологии оркестровки данных, такие как Apache Airflow.

Сегодня сообщество Apache Airflow выпустило самое большое обновление за последние годы, выпустив версию 3.0. Новая версия знаменует собой первое крупное обновление версии за четыре года. Тем не менее, Airflow активно работает, постоянно увеличивая количество версий 2.x, включая обновления 2.9 и 2.10 в 2024 году, которые в основном были сосредоточены на ИИ. В последние годы инженеры по данным приняли Apache Airflow в качестве своего фактического стандартного инструмента. Apache Airflow зарекомендовал себя как ведущая платформа оркестровки рабочих процессов с открытым исходным кодом с более чем 3000 участников и широким распространением среди компаний из списка Fortune 500. На основе платформы также существует множество коммерческих сервисов, включая Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows для Apache Airflow (MWAA) и Microsoft Azure Data Factory Managed Airflow, среди прочих.

Поскольку организации изо всех сил пытаются координировать рабочие процессы обработки данных в разрозненных системах, облаках и все более интенсивных рабочих нагрузках ИИ, у организаций растут потребности. Apache Airflow 3.0 удовлетворяет критически важные потребности предприятий с помощью архитектурной переделки, которая может улучшить то, как организации создают и развертывают приложения для обработки данных.

«Для меня Airflow 3 — это новое начало, это основа для гораздо большего набора возможностей», — сказал Викрам Кока, член Apache Airflow PMC (комитета по управлению проектами) и директор по стратегии в Astronomer, в эксклюзивном интервью VentureBeat. «Это почти полная переделка, основанная на том, что предприятия сообщили нам о необходимости для следующего уровня критически важного внедрения».

Сложность корпоративных данных изменила потребности в оркестровке данных

Поскольку компании все больше полагаются на принятие решений на основе данных, сложность рабочих процессов обработки данных резко возросла. Теперь организации управляют сложными конвейерами, охватывающими несколько облачных сред, разнообразные источники данных и все более сложные рабочие нагрузки ИИ.

Airflow 3.0 появляется как решение, специально разработанное для удовлетворения этих меняющихся корпоративных потребностей. В отличие от предыдущих версий, этот релиз отходит от монолитного пакета, представляя распределенную клиентскую модель, которая обеспечивает гибкость и безопасность. Эта новая архитектура позволяет предприятиям:

Выполнять задачи в нескольких облачных средах.

Внедрять детализированный контроль безопасности.

Поддерживать различные языки программирования.

Включать настоящие многооблачные развертывания.

Интересна также расширенная поддержка языков Airflow 3.0. В то время как предыдущие версии были в основном ориентированы на Python, новый релиз изначально поддерживает несколько языков программирования.

Airflow 3.0 настроен на поддержку Python и Go с запланированной поддержкой Java, TypeScript и Rust. Такой подход означает, что инженеры по работе с данными могут писать задачи на предпочитаемом ими языке программирования, что снижает трудности в разработке и интеграции рабочих процессов.

Управляемые событиями возможности преобразуют рабочие процессы данных

Airflow традиционно преуспел в запланированной пакетной обработке, но предприятиям все больше требуются возможности обработки данных в реальном времени. Теперь Airflow 3.0 поддерживает эту потребность.

«Ключевым изменением в Airflow 3 является то, что мы называем управляемым событиями планированием», — пояснил Кока.

Вместо того, чтобы запускать задание по обработке данных каждый час, Airflow теперь автоматически запускает задание при загрузке определенного файла данных или при появлении определенного сообщения. Это могут быть данные, загруженные в облачный контейнер хранилища Amazon S3, или потоковое сообщение с данными в Apache Kafka.

Возможность планирования на основе событий устраняет критический разрыв между традиционными инструментами ETL [извлечение, преобразование и загрузка] и фреймворками потоковой обработки, такими как Apache Flink или Apache Spark Structured Streaming, позволяя организациям использовать единый уровень оркестровки как для запланированных, так и для запускаемых событиями рабочих процессов.

Airflow ускорит выполнение вывода корпоративного ИИ и составного ИИ

Оркестровка данных на основе событий также поможет Airflow поддерживать быстрое выполнение вывода.

В качестве примера Кока подробно описал пример использования, в котором вывод в реальном времени используется для профессиональных услуг, таких как учет рабочего времени в юридическом отделе. В этом сценарии Airflow можно использовать для сбора необработанных данных из таких источников, как календари, электронные письма и документы. Для преобразования неструктурированной информации в структурированные данные можно использовать большую языковую модель (LLM). Другая предварительно обученная модель затем может использоваться для анализа структурированных данных отслеживания времени, определения того, подлежит ли работа оплате, а затем назначения соответствующих кодов выставления счетов и ставок.

Кока назвал этот подход составной системой ИИ — рабочим процессом, который объединяет различные модели ИИ для эффективного и разумного выполнения сложной задачи. Архитектура Airflow 3.0, управляемая событиями, делает этот тип многоэтапного процесса вывода в реальном времени возможным в различных корпоративных сценариях использования.