Прорыв в исследованиях Google DeepMind позволяет создать высокоэффективную альтернативу моделям на основе трансформаторов, потребляющих меньше ресурсов

Google DeepMind опубликовал исследовательскую статью, в которой предлагается языковая модель под названием RecurrentGemma, которая может соответствовать или превышать производительность моделей на основе трансформаторов, одновременно с большей эффективностью памяти, предлагая обещание высокой производительности языковой модели в средах с ограниченными ресурсами.

Исследовательская статья предлагает краткий обзор:

<цитата>

“Мы представляем RecurrentGemma, модель открытого языка, использующую новую архитектуру Griffin от Google. Гриффин сочетает линейные рецидивы с локальным вниманием, чтобы достичь отличных показателей языка. Он имеет состояние фиксированного размера, что уменьшает использование памяти и обеспечивает эффективное заключение относительно длинных последовательностей. Мы предоставляем предварительно подготовленную модель с параметрами 2B без встраивания и настроенным вариантом инструкций. Обе модели достигают сравнительной производительности с Gemma-2B, несмотря на то, что учатся на меньшем количестве токенов.&rd;

Подключение к Gemma

Gemma — это открытая модель, которая использует технологию Gemini наивысшего уровня Google, но легко и может работать на ноутбуках и мобильных устройствах. Подобно Gemma, RecurrentGemma также может работать в средах с ограниченными ресурсами. Другие сходства между Gemma и RecurrentGemma заключаются в данных перед обучением, настройках инструкций и RLHF (Reinforcement Learning From Human Feedback). RLHF — это способ использовать обратную связь человека, чтобы научить модель обучаться самостоятельно для генеративного ИИ.

Архитектура Грифона

Новая модель основана на гибридной модели под названием Griffin, которая была анонсирована несколько месяцев назад. Грифона называют “гибридом” модель, поскольку она использует два типа технологий: одна позволяет эффективно обрабатывать длинные последовательности информации, а другая позволяет сосредотачиваться на последних частях входных данных, что дает возможность обрабатывать “значительно&rdquo ; больше данных (повышенная пропускная способность) за тот же промежуток времени, что и модели на основе трансформаторов, а также уменьшает время ожидания (задержку).

модели, одну под названием «Ястреб», а другую — под названием «Гриффин». Исследовательская статья Гриффина объясняет, почему это прорыв:

“… мы эмпирически подтверждаем преимущества Hawk и Griffin относительно времени вывода и наблюдаем уменьшение задержки и значительно увеличенную пропускную способность по сравнению с нашими базовыми линиями Transformer. Наконец, Хоук и Гриффин демонстрируют способность экстраполировать на более длинные последовательности, чем они были обучены, и способны эффективно научиться копировать и получать данные на больших горизонтах. Эти выводы убедительно свидетельствуют о том, что предлагаемые нами модели предлагают мощную и эффективную альтернативу трансформерам, которая привлекает внимание всего мира.

Разница между Griffin и RecurrentGemma заключается в одной модификации, связанной с тем, как модель обрабатывает входные данные (входные встраивания).

Прорывы

В исследовательской статье утверждается, что RecurrentGemma обеспечивает подобную или лучшую производительность, чем более традиционная модель трансформатора Gemma-2b (обученная на 3 триллионах токенов против 2 триллионов для RecurrentGemma). Это одна из причин, почему исследовательская статья называется “Перемещение моделей трансформаторов” это показывает способ достижения более высокой производительности без больших накладных ресурсов архитектуры трансформатора. Исследовательская статья объясняет:

<цитата>

“Ключевым преимуществом RecurrentGemma является то, что она имеет значительно меньший размер состояния, чем трансформаторы на длинных последовательностях. В то время как кэш-память KV Gemma растет пропорционально длине последовательности, состояние RecurrentGemma ограничено и не увеличивается на последовательностях, дольше размера окна локального внимания в 2 тыс. маркеров. Итак, тогда как самая длинная выборка, которую Gemma может сгенерировать авторегрессией, ограниченная памятью, доступной на хосте, RecurrentGemma может генерировать последовательности произвольной длины.

RecurrentGemma также превосходит трансформаторную модель Gemma по пропускной способности (количество данных, которую можно обработать, чем больше, тем лучше). Пропускная способность трансформаторной модели страдает с большей длиной последовательности (увеличение количества токенов или слов), но это не касается RecurrentGemma, способной поддерживать высокую пропускную способность.

Исследование показывает:

<цитата>

“На рисунке 1а мы графически показываем пропускную способность, достигнутую при выборке запроса из 2 тыс. маркеров для диапазона длин генерации. Пропускная способность вычисляет максимальное количество токенов, которые мы можем отобрать за секунду на одном устройстве TPUv5e.

…RecurrentGemma достигает более высокой пропускной способности при всех рассмотренных длинах последовательности. Пропускная способность, достигнутая RecurrentGemma, не уменьшается с увеличением длины последовательности, тогда как пропускная способность, достигнутая Gemma, падает с увеличением кэша.~~~

Ограничение RecurrentGemma

Исследовательская статья действительно показывает, что этот подход имеет свои ограничения, поскольку производительность отстает по сравнению с традиционными моделями трансформаторов.

Исследователи подчеркивают ограничения в обработке очень длинных последовательностей, с чем способны работать модели трансформаторов.

Согласно документу:

“Хотя модели RecurrentGemma высокоэффективны для более коротких последовательностей, их производительность может отставать от традиционных трансформаторных моделей, таких как Gemma-2B, во время работы с чрезвычайно длинными последовательностями, которые превышают локальное внимание окно.”

Что это означает для реального мира

Важность этого подхода к языковым моделям состоит в том, что он предполагает, что существуют другие способы улучшить производительность языковых моделей, используя при этом меньше вычислительных ресурсов на архитектуре, не являющейся моделью трансформатора. Это также показывает, что модель без трансформатора может преодолеть одно из ограничений размеров кэша модели трансформатора, имеющих тенденцию к увеличению использования памяти.

Это может привести к применению языковых моделей в ближайшем будущем, которые смогут работать в средах с ограниченными ресурсами.

RecurrentGemma: Переход к трансформаторам прошлого для эффективных моделей открытого языка (PDF)