Microsoft улучшает поиск Bing с помощью новых языковых моделей, утверждая, что это уменьшает затраты, предоставляя более быстрые и более точные результаты.

  • Bing сочетает большие и малые языковые модели для улучшения поиска.
  • Благодаря технологии NVIDIA Bing уменьшил операционные расходы и улучшил время задержки
  • Bing говорит, что обновление улучшает скорость без ущерба для качества результата.

Microsoft объявила об обновлении инфраструктуры поиска Bing&rsquo, включающей большие языковые модели (LLM), малые языковые модели (SLM) и новые методы оптимизации.

Это обновление имеет целью улучшить производительность и уменьшить затраты на доставку результатов поиска.

В объявлении компания отмечает:

“В Bing мы всегда расширяем границы поисковых технологий. Использование как больших языковых моделей (LLM), так и малых языковых моделей (SLM) знаменует важную веху в расширении наших поисковых возможностей. Хотя модели трансформаторов хорошо нам послужили, растущая сложность поисковых запросов нуждалась в более мощных моделях.&6; >

Использование LLM в поисковых системах может создать проблемы со скоростью и стоимостью.

Чтобы решить эти проблемы, Bing научил SLM, которые, как утверждают, в 100 раз быстрее LLM.

Объявление звучит так:

“LLM могут быть дорогими в обслуживании и медленными. Чтобы повысить эффективность, мы научили модели SLM (~100-кратное улучшение пропускной способности по сравнению с LLM), которые точнее обрабатывают и понимают поисковые запросы.

Bing также использует NVIDIA TensorRT-LLM для улучшения работы SLM.

TensorRT-LLM – это инструмент, который помогает сократить время и стоимость запуска больших моделей на графических процессорах NVIDIA.

Влияние на “Глубокий поиск”

Согласно техническому отчету Microsoft, интеграция технологии Nvidia TensorRT-LLM улучшила ’Deep Search&rdquo компании.

Глубокий поиск использует SLM в режиме реального времени для предоставления соответствующих веб-результатов.

До оптимизации оригинальная модель трансформатора Bing&rsquo имела задержку 95-го процентиля 4,76 секунды на пакет (20 запросов) и пропускную способность 4,2 запроса в секунду на экземпляр.

С TensorRT-LLM задержка была уменьшена до 3,03 секунды на пакет, а пропускная способность возросла до 6,6 запросов в секунду на экземпляр.

Это 36% сокращение задержки и 57%снижение операционных расходов.

Компания заявляет:

“… Наш продукт создан на основе обеспечения наилучших результатов, и мы не идем на компромисс с качеством скорости. Вот здесь и вступает в действие TensorRT-LLM, который сокращает время вывода модели и, соответственно, сквозную задержку без ущерба для качества результата.

Преимущества для пользователей Bing

Это обновление предоставляет несколько потенциальных преимуществ пользователям Bing:

  • Быстрые результаты поиска с оптимизированными выводами и более быстрым временем ответа
  • Улучшенная точность благодаря расширенным возможностям моделей SLM, что обеспечивает более контекстуализированные результаты
  • Экономичность, позволяющая Bing инвестировать в дальнейшие инновации и усовершенствование

Почему Bing’s переходит к моделям LLM/SLM имеет значение

Переход Bing&rsquo на модели LLM/SLM и оптимизация TensorRT может повлиять на будущее поиска.

Поскольку пользователи задают более сложные вопросы, поисковым системам нужно лучше понимать и быстро предоставлять соответствующие результаты. Bing стремится сделать это с помощью меньших языковых моделей и усовершенствованных методов оптимизации.

Хотя нам придется подождать, чтобы увидеть полное влияние, шаг Bing&rsquo готовит основу для новой главы в поиске.