бургерЛого хедера
Поиск
avatar

Новое многотоковое предсказание Meta делает модели ИИ в 3 раза быстрее

В недавнем исследовании ученые из Meta, Ecole des Ponts ParisTech и Université Paris-Saclay предлагают повысить точность и скорость работы больших языковых моделей ИИ (LLM), заставив их предсказывать несколько лексем одновременно.

image

Это противоречит классической структуре авторегрессивных языковых моделей, которые были разработаны для предсказания одной лексемы за раз.

Хотя предсказание по нескольким словам не является универсальным решением для всех типов моделей и языковых задач, в некоторых областях оно дает существенные преимущества: втрое большую скорость и лучшую производительность в генеративных задачах.

Несмотря на то, что методика имеет много возможностей для совершенствования, она может стать мощным инструментом для некоторых приложений LLM.Классический способ обучения LLM известен как «предсказание по следующему токену» - техника самообучения, при которой модели дается последовательность токенов, и она должна предсказать следующий.

Затем она добавляет предсказанную лексему на вход и повторяет процесс по одной лексеме за раз. Проделывая это снова и снова на больших массивах текста, модель учится общим закономерностям, которые позволяют ей выдавать связные отрывки текста.

Исследователи изучили и задокументировали ограничения предсказания по следующему слову в приобретении языка, знаний о мире и способности рассуждать.

Например, фокусируясь на одной лексеме, модель становится слишком чувствительной к локальным паттернам и упускает из виду предсказания, требующие рассуждений на более длительную перспективу. Модели, обученные на предсказании следующего слова, также требуют огромного количества данных, чтобы достичь уровня беглости, который человек приобретает с гораздо меньшим количеством текста.

Новое исследование Meta основано на гипотезе о том, что «обучение языковых моделей для одновременного предсказания нескольких будущих лексем приводит к повышению эффективности выборки».Мультитокен-предсказание предписывает LLM одновременно предсказывать несколько будущих лексем из каждой позиции в обучающей корпорации. Исследователи предлагают простую архитектуру многоточечного предсказания, которая не требует дополнительного времени обучения или затрат памяти.Многословная модель языка предсказания основана на архитектуре Transformer, используемой в большинстве LLM, хотя и с некоторыми изменениями. Модель использует основную структуру трансформера, но вместо одного выхода имеет несколько независимых выходных головок, по одной для каждой лексемы, которую она хочет предсказать.В процессе вывода модель использует базовую схему предсказания следующего слова для каждой из предсказательных головок и использует дополнительные выходные головки для ускорения процесса декодирования. Модель использует преимущества нескольких аналогичных работ в этой области.

«Несмотря на отсутствие затрат и простоту, многотокеновое предсказание является эффективной модификацией для обучения более сильных и быстрых моделей трансформаторов», - пишут исследователи.

0 комментариев

Вас могут заинтересовать