Поскольку компании начинают экспериментировать с мультимодальным поиском и дополненной генерацией (RAG), компании, предоставляющие мультимодальные встраивания — способ преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, внедряя изображения и видео.
Cohere, обновившая свою модель встраивания Embed 3 для обработки изображений и видео в прошлом месяце, заявила, что предприятиям необходимо по-другому подготовить свои данные, обеспечить подходящую производительность встраивания и лучше использовать мультимодальный RAG.
«Прежде чем выделять значительные ресурсы на мультимодальное встраивание, неплохо было бы протестировать его в более ограниченном масштабе. Это позволит вам оценить производительность модели и ее пригодность для конкретных вариантов использования и должно дать представление о любых корректировках, необходимых перед полным развертыванием», — говорится в сообщении в блоге архитектора решений Cohere Янна Стоунмана.
Компания заявила, что многие из процессов, обсуждаемых в сообщении, присутствуют во многих других моделях мультимодального встраивания.
Стоунман сказал, что в зависимости от некоторых отраслей, моделям также может потребоваться «дополнительное обучение для сбора мелких деталей и вариаций на изображениях». Он привел в пример медицинские приложения, где радиологическое сканирование или фотографии микроскопических клеток требуют специализированной системы встраивания, которая понимает нюансы в таких изображениях.
Подготовка данных — ключ
Перед загрузкой изображений в мультимодальную систему RAG их необходимо предварительно обработать, чтобы модель встраивания могла их хорошо прочитать.
Изображениям может потребоваться изменить размер, чтобы они все были одного размера, в то время как организациям необходимо выяснить, хотят ли они улучшить фотографии с низким разрешением, чтобы не терялись важные детали, или сделать слишком качественные изображения с высоким разрешением более низкими, чтобы это не увеличивало время обработки.
«Система должна иметь возможность обрабатывать указатели изображений (например, URL-адреса или пути к файлам) вместе с текстовыми данными, что может быть невозможно при встраивании на основе текста. Чтобы создать плавный пользовательский интерфейс, организациям может потребоваться реализовать собственный код для интеграции поиска изображений с существующим поиском текста», — говорится в блоге.
Мультимодальные встраивания становятся более полезными
Многие системы RAG в основном работают с текстовыми данными, поскольку использовать текстовую информацию в качестве встраиваний проще, чем изображения или видео. Однако, поскольку большинство предприятий хранят все виды данных, RAG, который может искать изображения и тексты, стал более популярным. Организациям часто приходилось внедрять отдельные системы и базы данных RAG, предотвращая поиск смешанных модальностей.
Мультимодальный поиск не является чем-то новым, поскольку OpenAI и Google предлагают то же самое в своих соответствующих чат-ботах. OpenAI запустила свое последнее поколение моделей встраивания в январе. Другие компании также предоставляют компаниям способ использовать свои различные данные для мультимодального RAG. Например, Uniphore выпустила способ помочь предприятиям подготовить мультимодальные наборы данных для RAG.
0 комментариев