Microsoft улучшает поиск Bing с помощью новых языковых моделей, утверждая, что это уменьшает затраты, предоставляя более быстрые и более точные результаты.
- Bing сочетает большие и малые языковые модели для улучшения поиска.
- Благодаря технологии NVIDIA Bing уменьшил операционные расходы и улучшил время задержки
- Bing говорит, что обновление улучшает скорость без ущерба для качества результата.
Microsoft объявила об обновлении инфраструктуры поиска Bing&rsquo, включающей большие языковые модели (LLM), малые языковые модели (SLM) и новые методы оптимизации.
Это обновление имеет целью улучшить производительность и уменьшить затраты на доставку результатов поиска.
В объявлении компания отмечает:
“В Bing мы всегда расширяем границы поисковых технологий. Использование как больших языковых моделей (LLM), так и малых языковых моделей (SLM) знаменует важную веху в расширении наших поисковых возможностей. Хотя модели трансформаторов хорошо нам послужили, растущая сложность поисковых запросов нуждалась в более мощных моделях.&6; >
Использование LLM в поисковых системах может создать проблемы со скоростью и стоимостью.
Чтобы решить эти проблемы, Bing научил SLM, которые, как утверждают, в 100 раз быстрее LLM.
Объявление звучит так:
“LLM могут быть дорогими в обслуживании и медленными. Чтобы повысить эффективность, мы научили модели SLM (~100-кратное улучшение пропускной способности по сравнению с LLM), которые точнее обрабатывают и понимают поисковые запросы.
Bing также использует NVIDIA TensorRT-LLM для улучшения работы SLM.
TensorRT-LLM – это инструмент, который помогает сократить время и стоимость запуска больших моделей на графических процессорах NVIDIA.
Влияние на “Глубокий поиск”
Согласно техническому отчету Microsoft, интеграция технологии Nvidia TensorRT-LLM улучшила ’Deep Search&rdquo компании.
Глубокий поиск использует SLM в режиме реального времени для предоставления соответствующих веб-результатов.
До оптимизации оригинальная модель трансформатора Bing&rsquo имела задержку 95-го процентиля 4,76 секунды на пакет (20 запросов) и пропускную способность 4,2 запроса в секунду на экземпляр.
С TensorRT-LLM задержка была уменьшена до 3,03 секунды на пакет, а пропускная способность возросла до 6,6 запросов в секунду на экземпляр.
Это 36% сокращение задержки и 57%снижение операционных расходов.
Компания заявляет:
“… Наш продукт создан на основе обеспечения наилучших результатов, и мы не идем на компромисс с качеством скорости. Вот здесь и вступает в действие TensorRT-LLM, который сокращает время вывода модели и, соответственно, сквозную задержку без ущерба для качества результата.
Преимущества для пользователей Bing
Это обновление предоставляет несколько потенциальных преимуществ пользователям Bing:
- Быстрые результаты поиска с оптимизированными выводами и более быстрым временем ответа
- Улучшенная точность благодаря расширенным возможностям моделей SLM, что обеспечивает более контекстуализированные результаты
- Экономичность, позволяющая Bing инвестировать в дальнейшие инновации и усовершенствование
Почему Bing’s переходит к моделям LLM/SLM имеет значение
Переход Bing&rsquo на модели LLM/SLM и оптимизация TensorRT может повлиять на будущее поиска.
Поскольку пользователи задают более сложные вопросы, поисковым системам нужно лучше понимать и быстро предоставлять соответствующие результаты. Bing стремится сделать это с помощью меньших языковых моделей и усовершенствованных методов оптимизации.
Хотя нам придется подождать, чтобы увидеть полное влияние, шаг Bing&rsquo готовит основу для новой главы в поиске.