Infini-attention от Google можно легко добавить к существующим моделям, в том числе базовому алгоритму Google

Google опубликовал исследовательскую статью о новой технологии под названием Infini-attention, позволяющей обрабатывать огромные объемы данных с помощью “бесконечно длинных контекстов” одновременно его можно легко вставлять в другие модели, чтобы значительно улучшить их возможности

Эта последняя часть должна заинтересовать тех, кто интересуется алгоритмом Google’. Infini-attention работает по принципу plug-and-play, что означает, что его относительно легко вставить в другие модели, включая используемые основным алгоритмом Google. Часть о “бесконечно длинные контексты” может иметь последствия для обновления некоторых поисковых систем Google.

Название научной статьи: Leave No Context Behind. 60~/em>

Память вычислительно дорога для LLM

Большие языковые модели (LLM) имеют ограничения по количеству данных, которые они могут обработать за один раз, поскольку вычислительная сложность и использование памяти могут значительно возрасти. Infini-Attention дает LLM возможность обрабатывать более длинные контексты, сохраняя при этом недостаточную память и необходимую мощность обработки.

В исследовательской статье объясняется:

“Память является краеугольным камнем интеллекта, поскольку она позволяет выполнять эффективные вычисления, приспособленные к конкретным контекстам. Однако Transformers &help;и LLM на основе Transformer …имеют ограниченную контекстно-зависимую память из-за природы механизма внимания.

Действительно, масштабирование LLM к более длинным последовательностям (то есть 1 млн токенов) является сложной задачей со стандартными архитектурами Transformer, а обслуживание все больших и более длинных контекстных моделей становится финансово дорогостоящим. 62~

И в другом месте исследовательской статьи объясняется:

“Модели трансформаторов тока ограничены в способности обрабатывать длинные последовательности из-за квадратического увеличения затрат на вычисление и память. Infini-attention преследует цель решить эту проблему масштабируемости.&rd;

Исследователи выдвинули гипотезу о том, что Infini-attention может масштабироваться для работы с чрезвычайно длинными последовательностями из Transformers без обычного увеличения вычислительных ресурсов и памяти.

Три важные особенности

Infini-attention от Google решает недостатки трансформаторных моделей, объединяя три функции, которые позволяют LLM на основе трансформаторов обрабатывать более длинные последовательности без проблем с памятью и позволяют им использовать контекст из предварительных данных в последовательности и сопоставлять его с контекстом далее до конца последовательности.

Особенности Infini-Attention

  • Система компрессионной памяти
  • Долгосрочное линейное внимание
  • Локальное скрытое внимание

Система компрессионной памяти

Infini-attention использует так называемую систему сжатия памяти. Поскольку вводится больше данных (как часть длинной последовательности данных), система сжатия памяти сжимает часть старой информации, чтобы уменьшить объем места, необходимого для хранения данных.

Долгосрочное линейное внимание

Infini-attention также использует так называемые долговременные линейные механизмы внимания ” которые позволяют LLM обрабатывать данные, существующие ранее в последовательности.

Это важно для задач, где контекст существует на большей плоскости данных. Это как иметь возможность обсудить всю книгу в контексте всех разделов и объяснить, как первый раздел связан с другим разделом в середине книги.

Локальное маскированное внимание

Помимо долговременного внимания, бесконечное внимание также использует то, что называется локальным маскированным вниманием. Этот тип внимания обрабатывает ближайшие (локализованные) части входных данных, что полезно для ответов, зависящих от ближайших частей данных.

Совмещение долгосрочного и локального внимания вместе помогает решить проблему ограничения трансформаторов количеством входных данных, которые они могут запомнить и использовать для контекста.

Исследователи объясняют:

<цитата>

“Infini-attention включает сжатую память в механизм ванильного внимания и встраивает как замаскированное локальное внимание, так и долгосрочные механизмы линейного внимания в одном блоке Transformer.”

Результаты экспериментов и испытаний

Infini-attention было протестировано с обычными моделями для сравнения между несколькими контрольными тестами, включающими длинные последовательности ввода, например, моделирование языка с длинным контекстом, поиск ключа доступа и задачи по суммированию книги. Получение ключа доступа — это тест, в котором языковая модель должна получить определенные данные по очень длинной текстовой последовательности.

Список трех тестов:

<ол>

  • Моделирование языка с длинным контекстом
  • Проверка ключа
  • Содержание книги
  • Моделирование языка с длинным контекстом и оценка удивления

    Исследователи пишут, что модели с бесконечным вниманием превзошли базовые модели и что увеличение длины тренировочной последовательности привело к дальнейшим улучшениям в оценке Perplexity. Оценка удивительности это показатель, измеряющий производительность языковой модели, причем более низкие оценки указывают на лучшую производительность.

    Исследователи поделились своими выводами:

    <цитата>

    “Infini-Transformer превосходит базовые параметры Transformer-XL …и Memorizing Transformers, сохраняя при этом в 114 раз меньше параметров памяти, чем модель Memorizing Transformer с KV-памятью на основе векторного поиска длиной 65 Кб на 9-м уровне. Infini-Transformer превосходит трансформаторы запоминания с длиной памяти 65K и достигает 114-кратного коэффициента сжатия.

    Мы дополнительно увеличили длину обучающей последовательности до 100K с 32K и научили модели на наборе данных Arxiv-math. Обучение на 100K дополнительно снизило оценку удивления до 2,21 и 2,20 для линейных и линейных + дельта моделей.

    Проверка ключа

    Проверка ключа доступа состоит в том, что случайное число скрыто в длинной текстовой последовательности, а задача состоит в том, чтобы модель получила скрытый текст. Ключ доступа скрыт в начале, середине или конце длинного текста. Модель смогла решить проверку ключа доступа длиной до 1 миллиона.

    “A 1B LLM естественным образом масштабируется до длины последовательности 1M и решает задачу поиска ключа доступа, когда вводится Infini-attention. Infini-Transformers решило задачу ключа доступа с длиной контекста до 1 МБ при условии точной настройки входных данных длиной 5 КБ. Мы сообщаем о точности получения на уровне маркера для ключей доступа, скрытых в другой части (начало/середина/конец) длинных вводов длиной от 32K до 1M.~~~~~~~~~~~~ ~

    Книга Итоговый тест

    Infini-attention также отметился в итоговом тесте книги, превзойдя лучшие тесты, достигнув новых передовых уровней производительности (SOTA).

    Описание результатов:

    “Напоследок, мы показываем, что модель 8B из Infini-attention достигает нового результата SOTA в задании суммирования книги длиной 500 КБ после постоянного предварительного обучения и выполнения задания. -настройка.

    &help;Мы дополнительно расширили наш подход путем постоянного предварительного обучения модели 8B LLM с длиной входных данных 8K для 30K шагов. Затем мы настроили задачу резюме книги, BookSum (Kry sci´nski и др., 2021), целью которого является создание резюме всего текста книги.

    Наша модель превосходит предыдущие лучшие результаты и достигает нового SOTA для BookSum путем обработки всего текста из книги. …Существует четкая тенденция, которая показывает, что с большим количеством текста, предоставленного как входные данные из книг, наши Infini-Transformers улучшают показатели производительности суммирования.”

    Последствия Infini-Attention для SEO

    Infini-attention – это прорыв в моделировании дальнего и кратковременного внимания с большей эффективностью, чем предыдущие модели без Infini-attention. Он также поддерживает “постоянное предварительное обучение и адаптацию к длительному контексту” это означает, что его можно легко интегрировать в существующие модели.

    Наконец, “постоянное предварительное обучение и адаптация к длительному контексту” делает его идеальным для сценариев, где есть поток новых данных  что’постоянно нужно добавлять для обучения модели. Эта последняя часть чрезвычайно интересна, поскольку она может быть полезна для приложений в задней части поисковых систем Google, особенно там, где необходимо иметь возможность анализировать длинные последовательности информации и понимать релевантность одной части вблизи от начала последовательности к другой части, которая ближе к конца.

    Тот факт, что исследователи заявляют о “бесконечно длинные входные данные” удивительно, но что действительно важно для SEO, так это то, что этот механизм — это способность обрабатывать длинные последовательности данных, чтобы “не оставлять позади контекст” а также его аспект «подключи и воспроизведения».  Это дает представление о том, как можно улучшить некоторые системы Google, если Google адаптирует Infini-attention к системам в пределах своего основного алгоритма.