По всем показателям 2024 год стал самым значимым годом для искусственного интеллекта — по крайней мере, с точки зрения коммерциализации технологии.
Бум больших языковых моделей (LLM), вызванный запуском ChatGPT в конце 2022 года, не показал никаких признаков замедления, поскольку многочисленные новые LLM были представлены не только OpenAI и такими стойкими технологическими гигантами, как Microsoft, Meta и Google, но и десятками других стартапов и отдельных разработчиков.
Сообщения о замедлении исследований в области ИИ оказались, если не беспочвенными, то, безусловно, преувеличенными на данный момент.
Кроме того, начали появляться новые технологии за пределами архитектуры Transformer, которая лежит в основе большинства крупных LLM, такие как Liquid Foundation Models от Liquid AI.
И, наконец, компании начали полностью принимать «агентный» подход к ИИ — разрабатывать специальные боты, приложения и рабочие процессы на базе ИИ, которые могут работать над определенными проблемами независимо или с меньшим человеческим контролем, чем типичные чат-боты LLM.
Сведение новостных сюжетов года к топ-14, не говоря уже о топ-10 или топ-4, было досадной попыткой. Но я пошел вперед и попытался, хотя и немного схитрив, объединив несколько сюжетов в более крупные темы. На мой взгляд, вот что окажет наибольшее влияние в этом году:
1. OpenAI расширился далеко за пределы ChatGPT
Компания, которая, возможно, больше всего ответственна за начало эпохи искусственного интеллекта, не упустила ни одного момента в этом году, несмотря на усиливающуюся конкуренцию со стороны новичков и устаревших технологий, даже своего собственного инвестора и партнера Microsoft.
Модель o1: OpenAI выпустила свое первое новое семейство больших моделей общего назначения за пределами своей серии GPT, серию o1 «рассуждения», которая выделяет больше времени на обработку сложных подсказок, что приводит к более высокой точности. Она особенно эффективна в научных задачах, кодировании и рассуждениях.
Модель o3: последовала за моделью o1 в сентябре с громким объявлением в конце года о еще более продвинутой модели o3. Хотя она не будет доступна публично или даже третьим лицам до начала 2025 года, она показывает, что OpenAI не почивает на лаврах.
Поиск ChatGPT: эта функция, изначально запущенная как отдельный продукт только по приглашению под названием SearchGPT, а затем свернутая в ChatGPT, обеспечивает более оперативный поиск веб-информации в ChatGPT и усовершенствованное представление результатов поиска, повышая его полезность для актуальных запросов и соперничая с Google, Bing и новичком Perplexity.
Canvas: представленный в октябре, Canvas расширяет интерфейс ChatGPT за пределы разговорного до панели, похожей на рабочую станцию, которая может динамически обновлять контент по запросу пользователя, например, при редактировании документа или проекта кодирования. Конечно, было трудно не увидеть в этом реакцию или, по крайней мере, сопоставимую функцию с Artifacts от Anthropic, анонсированным несколькими месяцами ранее.
Sora: После почти года дразнения нас своей тщательно охраняемой моделью видеогенератора, OpenAI в начале декабря наконец-то выпустила Sora для масс, быстро вызвав широкий спектр реакций, поскольку она стремилась выделиться в высококонкурентном пространстве видео ИИ с уникальным и хорошо продуманным интерфейсом и функцией раскадровки.
2. Взлет ИИ с открытым исходным кодом
Llama 3 и 3.1: Meta представила Llama 3 в апреле, установив новый стандарт производительности в ИИ с открытым исходным кодом, затем в июле быстро последовала за ней с Llama 3.1 с 405 миллиардами параметров. Версии Llama 3.1 использовались для работы Meta AI, помощника компании, интегрированного на таких платформах, как WhatsApp, Messenger, Instagram и Facebook, стремящегося стать самым широко используемым помощником ИИ.
Llama 3.3: выпущенная в декабре 2024 года, Llama 3.3 показала производительность, сопоставимую с более крупными моделями, но при этом потребовала лишь часть вычислительных затрат, что сделало ее более доступной для корпоративных приложений.
Между тем, китайские модели, такие как семейство Qwen-2.5 от Alibaba и новые V2.5 и R1-Lite Preview от DeepSeek, появились, казалось бы, из ниоткуда и возглавили некоторые бенчмарки, а сама Nvidia вышла за рамки поставок видеокарт и программных архитектур, выпустив собственную мощную модель Nemotron-70B с открытым исходным кодом.
Nous Research, небольшая компания из Сан-Франциско, стремящаяся предлагать более персонализированные и менее ограничивающие модели ИИ с открытым исходным кодом, также представила несколько интересных новых идей.
И давайте не забывать о французской Mistral, которая быстро расширила свои собственные предложения ИИ с открытым исходным кодом и фирменные предложения.
3. Серия Gemini от Google стала серьезным претендентом на звание лучшего из доступных
В истории возвращения года серия моделей ИИ Gemini от Google, которые когда-то высмеивались за их странную генерацию изображений и критиковались за чрезмерную «пробужденность», вернулась с ревом с новыми, более мощными версиями, которые теперь возглавляют сторонние бенчмарки производительности и становятся все более привлекательными для разработчиков и предприятий.
Google представила Gemini 2.0 Flash, многомодальную модель ИИ, которая поддерживает потоковый анализ видео и может видеть и инструктировать, что вы делаете на своем экране, а затем выпустила Gemini 2.0 Flash Thinking, которая конкурирует с моделями рассуждений o1 и o3 от OpenAI.
0 комментариев