Компания Google разработала новую мультимодальную модель на языке зрения под зонтиком легких открытых моделей Gemma.
Названный PaliGemma, он предназначен для работы с подписями к изображениям, визуальными вопросами и поиском изображений. Он присоединился к другим вариантам Gemma, CodeGemma и RecurrentGemma, и уже сегодня доступен для использования разработчиками в своих проектах.
Google анонсировала PaliGemma на своей конференции для разработчиков. PaliGemma - единственная модель в семействе Gemma, предназначенная для перевода визуальной информации в письменную. Это также модель малого языка (SLM). Это отличие означает, что она работает эффективно, не требуя большого объема памяти или вычислительной мощности, что делает ее пригодной для использования на устройствах с ограниченными ресурсами, таких как смартфоны, IoT-устройства и персональные компьютеры.Разработчиков может привлечь эта модель, потому что она открывает множество новых возможностей для их приложений. PaliGemma может помочь пользователям приложений генерировать контент, предложить более широкие возможности поиска или помочь слабовидящим людям лучше понять окружающий их мир. Когда мы используем искусственный интеллект, он обычно предоставляется через облако и с помощью одной или нескольких больших языковых моделей (LLM). Но чтобы сократить время ожидания - время, которое требуется от получения входных данных до генерации ответа, - разработчики могут выбрать SLM. Или же они могут обратиться к этим моделям при работе с устройствами, где надежность интернета может быть проблемой.
Веб и мобильные приложения, возможно, являются более традиционными вариантами использования PaliGemma, но вполне возможно, что модель может быть включена в носимые устройства, такие как солнцезащитные очки, которые могли бы конкурировать с Ray-Ban Meta Smart Glasses, или в устройства, подобные Rabbit r1 или Humane AI Pin. Не стоит забывать и о роботах, которые работают в наших домах и офисах. Поскольку Gemma создана на основе тех же исследований и технологий, что и Google Gemini, разработчикам будет проще внедрить эту технологию в свою работу.Выпуск PaliGemma - не единственное объявление, которое Google делает сегодня в отношении Gemma. Компания также представила свою самую большую версию Gemma, содержащую 27 миллиардов параметров.
0 комментариев