На рейтинги AI Overviews может повлиять показатель получения информации, описанный в недавно выданном патенте Google
Недавно компания Google получила патент на ранжирование веб-страниц, что может предложить понять, как AI Overviews ранжирует содержимое. Патент описывает метод ранжирования страниц на основе того, что может заинтересовать пользователя дальше.
Контекстуальная оценка усиления информации о ссылках
Патент называется Contextual Estimation Of Link Information Gain, он был представлен в 2018 году и издан в июне 2024 года. Речь идет о вычислении рейтинговой оценки под названием Information Gain, которая используется для ранжирования второй набор веб-страниц, которые, вероятно, будут интересны пользователю как несколько иная дополнительная тема, связанная с предыдущим вопросом.
Патент начинается с общих описаний, затем добавляет слои деталей в течение параграфов. Аналогией можно считать то, что это похоже на пиццу. Сначала это была пицца с моцареллой, потом добавили грибы, так что теперь это пицца с грибами. Затем они добавляют лук, так что теперь это пицца с грибами и луком. Существуют слои особенностей, которые складываются в весь контекст.
Итак, если вы прочтете только один раздел, легко сказать: “Это&одназначно грибная пицца” и полностью ошибаться относительно того, что это на самом деле.
<сильный>Существуют слои контекста, но он состоит из:
- Рейтинг веб-страницы, которая соответствует тому, что может заинтересовать пользователя следующая.
- Контекст изобретения — автоматизированный помощник или чат-бот
- Поисковая система играет определенную роль таким образом, который кажется похожим на Обзор искусственного интеллекта Google’60~/li>
Увеличение информации и поисковая оптимизация: что на самом деле происходит?
Несколько месяцев назад я прочитал комментарий в социальных сетях, в котором утверждалось, что “увеличение информации” являлся существенным фактором в недавнем обновлении основного алгоритма Google. Это упоминание меня удивило, потому что я никогда раньше не слышал о получении информации. Я спросил об этом нескольких друзей из поисковых систем, и они тоже никогда об этом не слышали.
То, что человек в социальных сетях утверждал, будто Google использовал “получение информации” оценка для повышения рейтинга веб-страниц, содержащих больше информации, чем другие веб-страницы. Итак, идея заключалась в том, что было важно создавать страницы, содержащие больше информации, чем другие страницы, что-то в этом роде.
Поэтому я прочитал патент и обнаружил, что “информационный прирост” речь не идет о рейтинге страниц, содержащих больше информации, чем другие страницы. Действительно речь идет о том, что является более глубоким для SEO, поскольку это может помочь понять одно измерение того, как AI Overviews может ранжировать веб-страницы.
TL/DR патента на получение информации
То, о чем в действительности идет речь в патенте на получение информации, еще интереснее, поскольку он может дать указание на то, как AI Overviews (AIO) ранжирует веб-страницы, которые могут заинтересовать пользователя. Это что-то вроде внедрения персонализации путем предсказания того, что заинтересует пользователя дальше.
Патент описывает сценарий, когда пользователь делает поисковый запрос, а автоматизированный помощник или чат-бот предоставляет ответ, отвечающий заданному вопросу. Система оценки получения информации работает в фоновом режиме, чтобы классифицировать второй набор веб-страниц, относящихся к тому, что может заинтересовать пользователя дальше. Это новое измерение ранжирования веб-страниц.
Акцент патента на автоматизированных помощниках
Существует несколько версий патента Information Gain, датированных 2018-2024 годами. Первая версия похожа на последнюю, но наиболее существенным отличием является добавление чат-ботов как контекста, где используется изобретение получения информации.
В патенте используется фраза “автоматический помощник” 69 раз и использует фразу “поисковая система” всего 25 раз. Подобно AI Overviews, поисковики действительно играют определенную роль в этом патенте, но, как правило, это касается автоматизированных помощников.
Как станет очевидным, ничто не указывает на то, что веб-страница, содержащая больше информации, чем конкуренция, скорее всего, будет выше в результатах обычного поиска. Это не то, о чем идет речь в этом патенте.
Общее описание контекста
Все версии патента описывают представление результатов поиска в контексте автоматизированного помощника и ответы на вопросы на естественном языке. Патент начинается с общего описания и становится более конкретным. Эта особенность патентов состоит в том, что они претендуют на охрану для широчайших контекстов, в которых изобретение может быть использовано и постепенно становиться конкретным.
Во всем первом разделе (Аннотация)’даже не упоминаются веб-страницы или ссылки. Речь идет только о показателе получения информации в очень общем контексте:
<цитата>
“Показатель усиления информации для данного документа указывает на дополнительную информацию, включенную в документ, кроме информации, содержащейся в документах, ранее просматриваемых пользователем.”
Это краткое описание патента, где ключевое понимание состоит в том, что подсчет прироста информации происходит на страницах после того, как пользователь увидит первые результаты поиска.
Более конкретный контекст: автоматизированные помощники
Второй абзац в разделе под названием “История” является более конкретным и добавляет дополнительный уровень контекста для изобретения, поскольку в нем упоминается ссылки. В частности, речь идет о пользователе, который делает поисковый запрос и получает ссылку на результаты поиска – оценка получения информации еще не рассчитана.
В разделе «Тло» написано:
“Например, пользователь может подать поисковый запрос и получить набор документов и/или ссылок на документы, соответствующие представленному поисковому запросу .”
Следующая часть базируется на поисковом запросе пользователя:
“Кроме того, например, пользователю может быть предоставлен документ на основе определенных интересов пользователя, ранее просмотренных документов пользователя и/или других критериев, которые могут быть использованы для идентификации и предоставления представляющего интерес документа. Информация из документов может быть предоставлена, например, через автоматизированного помощника и/или как результаты поисковой системы. Кроме того, информация из документов может быть предоставлена пользователю в ответ на поисковый запрос и/или может быть автоматически предоставлена пользователю на основе продолжения поиска после того, как пользователь завершил сеанс поиска. ~/blockquote>
Последнее предложение сформулировано плохо.
Вот&оригинальное предложение:
“Кроме того, информация из документов может предоставляться пользователю в ответ на поисковый запрос и/или автоматически предоставляться пользователю на основе продолжения поиска после завершения пользователем сеанса поиска.& ”
Вот’как это имеет смысл:
“Кроме того, информация из документов может быть предоставлена пользователю… на основе продолжения поиска после того, как пользователь завершил сеанс поиска.”
Информация, предоставленная пользователю, является “в ответ на запрос поиска и/или может быть автоматически предоставлена пользователю”
Это станет немного понятнее, если вы поместите вокруг него скобки:
Кроме того, информация из документов может быть предоставлена пользователю (в ответ на поисковый запрос и/или может быть автоматически предоставлена пользователю) на основе продолжения поиска после завершения сеанса поиска.
Выводы:
- Патент описывает идентификационные документы, имеющие отношение к “интересам пользователя” на основе “просмотренных ранее документов” “и/или другие критерии.”
- Устанавливает общий контекст автоматизированного помощника “и/или& ;rdquo; поисковая система
- Информация из документов, основанных на “ранее просмотренных документах” “и/или другие критерии” может быть показано после того, как пользователь продолжит поиск.
Более конкретный контекст: чат-бот
Далее патент добавляет дополнительный уровень контекста и специфики, вспоминая, как чат-боты могут “добывать” ответ с веб-страницы (“документ”) и показать это как ответ. Речь идет о показе краткого изложения, содержащего ответ, вроде предлагаемых фрагментов, но в контексте чат-бота.
Патент объясняет:
<цитата>
“В некоторых случаях из документа может быть извлечена часть информации для представления пользователю. Например, когда пользователь участвует в голосовом диалоге «человек-компьютер» с помощью автоматизированного процесса программного обеспечения помощника (также называют чат-ботами, ” “интерактивными личными помощниками” & “умные личные помощники, “персональные голосовые помощники, “разговорные агенты,”виртуальные помощники,”автоматизированный помощник может выполнять различные типы обработки, чтобы извлечь важную информацию из документа, чтобы автоматизированный помощник мог представить информацию в сокращенной форме.
Как другой пример, некоторые поисковые системы предоставят сводную информацию из одного или нескольких адаптивных и/или соответствующих документов, в дополнение или вместо ссылок на адаптивные и/или соответствующие документы, в ответ на запрос пользователя& поисковый запрос rsquo;”
Последнее предложение звучит так, будто оно описывает нечто, похожее на предлагаемый фрагмент или наподобие обзоров искусственного интеллекта, где придается краткое содержание. Предложение является очень общим и неоднозначным, поскольку в нем используются “и/или” и “в дополнение к или вместо” и не такое конкретное, как предыдущие предложения. Это пример общего патента по юридическим причинам.
Ранжирование следующего набора результатов поиска
Следующий раздел называется “Итог”, и в нем подробнее рассказывается о том, как оценка получения информации отображает, насколько вероятно, что пользователь заинтересуется следующим набором документов. Речь идет не о ранжировании результатов поиска, а о ранжировании следующего набора результатов поиска (на основе связанной темы).< /p>
В ней указано:
<цитата>
“Показатель усиления информации для данного документа указывает на дополнительную информацию, включенную в данный документ, кроме информации, содержащейся в других документах, которые уже были представлены пользователю.& ;rdquo;
Рейтинг на основе темы веб-страниц
Тогда речь идет о представлении веб-страницы в браузере, чтении на слух соответствующей части документа или звуковом/визуальном представлении короткого содержания документа (“звуковое/визуальное представление важной информации, полученной из документа пользователю и т.д.”)< /p>
Но часть, которая действительно интересна, заключается в следующем объяснении, используя тему веб-страницы как представление содержимого, которое используется для вычисления оценки получения информации.< /p>
В нем описано много разных способов получения представления того, о чем идет речь на странице. Но важно то, что он описывает вычисление показателя получения информации на основе представления того, о чем говорится в содержимом, например темы.
“В некоторых реализациях показатели прироста информации могут определяться для одного или нескольких документов путем применения данных, указывающих на документы, например их всего содержимого, изъятой информации , семантическое представление (например, встраивание, вектор признаков, представление сумки слов, гистограмма, сгенерирована из слов/фраз в документе и т.п.) в модели машинного обучения для генерирования оценки прироста информации.& ”
Патент далее описывает ранжирование первого набора документов и использование показателей получения информации для ранжирования дополнительных наборов документов, предусматривающих следующие вопросы или прогресс в интересующем пользователе диалоге.
В некоторых реализациях автоматический помощник может отправлять запрос поисковой системе, а затем применять рейтинги получения информации к нескольким наборам результатов поиска (соответствующим связанным поисковым запросам).
Существует несколько вариантов того, как сделать то же, но в общих чертах это описывается так:
“На основе показателей получения информации информация, содержащаяся в одном или нескольких новых документах, может избирательно предоставляться пользователю способом, отображающим вероятную информацию выигрыш, которого может получить пользователь, если ему будет представлена информация из выбранных документов.& ;rdquo;
Что общего для всех версий патента
Все версии патента имеют общее сходство, над которым со временем добавляется больше деталей (например, добавление лука в грибную пиццу). Ниже приведен базовый уровень общего для всех версий.
Применение оценки прироста информации
Все версии патента описывают применение оценки усиления информации ко второму набору документов, содержащих дополнительную информацию, кроме первого набора документов. Очевидно, нет критериев или информации, чтобы догадаться, что ищет пользователь, когда он начинает сеанс поиска. Таким образом, оценки получения информации не применяются к первым результатам поиска.
Примеры отрывков, которые одинаковы для всех версий:
<цитата>
- Обнаружен второй набор документов, который также связан с темой первого набора документов, но еще не просмотрел пользователь.
- Для каждого нового документа во втором наборе документов определяется показатель усиления информации, который для нового документа указывает на то, содержит новый документ информацию, которая не содержалась в документах первого набора документов&help;
Автоматизированные помощники
Все четыре версии патента касаются автоматизированных помощников, показывающих результаты поиска в ответ на запросы на естественном языке.
В версиях патента 2018 и 2023 поисковики упоминаются 25 раз. В версии 2o18 упоминается “автоматизированный помощник” 74 раза, а последняя версия упоминает об этом 69 раз.
Все они ссылаются на “разговорных агентов” “интерактивные персональные помощники” “умные персональные помощники” “персональные голосовые помощники,” и “виртуальные помощники.&”
Понятно, что ударение в патенте сделано на автоматизированных помощниках, а не на обычных результатах поиска.
Повороты диалога
Примечание: В повседневной речи мы употребляем слово диалог. В вычислении они используют заклинания диалог.
Все версии патентов касаются способа взаимодействия с системой в форме диалога, в частности поворота диалога. Поворот диалогового окна — это поворот вперед и назад, когда пользователь задает вопросы, используя естественный язык, получает ответ, а затем задает дополнительный вопрос или совсем другой вопрос. Это может быть естественный язык в тексте, текст в речи (TTS) или аудио.
Главный общий аспект патентов — это переход вперед и назад в том, что называется “диалоговым поворотом.” Все версии патента имеют это как контекст.
Вот пример того, как работает поворот диалога:
“Клиент 106 автоматизированного помощника и удаленный автоматизированный помощник 115 могут обрабатывать ввод пользователя на естественном языке и предоставлять ответы в форме диалога, который включает в себя один или более диалогов повороты. Поворот диалога может включать, например, ввод на естественном языке, предоставленный пользователем, и ответ на ввод на естественном языке автоматизированным помощником.
Таким образом, между пользователем и автоматическим помощником может быть сгенерировано диалоговое окно, которое позволяет пользователю взаимодействовать с автоматическим помощником &help;в разговоре. /blockquote>
Проблемы, решаемые оценками для получения информации
Основная особенность патента заключается в улучшении взаимодействия с пользователем путем понимания дополнительной ценности, которую придает новый документ по сравнению с документами, которые пользователь уже видел. Это дополнительное значение означает фраза Information Gain.
Существует несколько способов полезного получения информации, и один из способов, который описан во всех версиях патента, — в контексте аудио ответ и то, как долгосрочный аудио ответ не является хорошим, включая контекст TTS (текст в язык).
Патент объясняет проблему долговременного ответа:
<цитата>
“…и поэтому пользователь может подождать, пока будет выведен почти весь ответ, прежде чем продолжить. По сравнению с чтением, пользователь может пассивно получать аудиоинформацию, однако время, необходимое для вывода, длиннее, и есть меньшая возможность сканировать или прокручивать/пропускать информацию.
Патент объясняет, как получение информации может ускорить ответы путем устранения лишних (повторяющихся) ответов или если ответа недостаточно и заставляет пользователя перейти к другому диалоговому окну.
Эта часть патента касается плотности информациираздела веб-страницы, раздела, отвечающего на вопросы с наименьшим количеством слов. Плотность информации зависит от того, насколько “точны,” “лаконичный,” и “релевантные”‘ ответ заключается в уместности и избегании повторяемости. Плотность информации важна для звуковых/разговорных ответов.
Вот что сказано в патенте:
<цитата>
“Таким образом, в контексте аудиовыведения важно, чтобы исходная информация была релевантной, точной и короткой, чтобы избежать ненужного длинного вывода, лишнего вывода или дополнительного поворота диалога.< /p>
Информационная плотность исходной информации становится особенно важной для повышения эффективности диалогового сеанса. Методы, описанные здесь, решают эти проблемы, уменьшая и/или исключая представление информации, которую уже предоставил пользователь, в частности в контексте диалога «человек-компьютер». блок цитата>
Идея “плотности информации” важен в общем смысле, поскольку он лучше общается с пользователями, но он, вероятно, чрезвычайно важен в контексте отображения в результатах поиска чат-бота, независимо от того, является ли он голосовым или нет. Google AI Overviews показывает фрагменты веб-страницы, но возможно важнее то, что сжатое общение является лучшим способом быть в теме и облегчить поисковой системе понимание содержимого.
Интерфейс результатов поиска
Во всех версиях патента Information Gain четко указано, что изобретение не относится к контексту обычных результатов поиска. Это явно в контексте ранжирования веб-страниц в естественном языковом интерфейсе автоматизированного помощника и чат-бота искусственного интеллекта.
Однако есть часть патента, описывающая способ показа пользователям второго набора результатов в “интерфейсе результатов поиска.” Сценарий состоит в том, что пользователь видит ответ, а затем интересуется родственной темой. Второй набор ранжированных веб-страниц отображается в “интерфейсе результатов поиска.”
Патент объясняет:
<цитата>
“В некоторых реализациях один или более новых документов второго набора могут быть представлены способом, выбираемым на основе накопителей информации. Например, один или несколько новых документов могут быть представлены как часть интерфейса результатов поиска, предоставляемого пользователю в ответ на запрос, включающий тему документов, например ссылку на один или более документов. В некоторых реализациях эти результаты поиска могут быть ранжированы по крайней мере частично на основе их соответствующих баллов получения информации.
…Тогда пользователь может выбрать одну из ссылок, и информация, содержащаяся в конкретном документе, может быть представлена пользователю. Впоследствии пользователь может вернуться к результатам поиска, и ссылки на документ могут быть вновь предоставлены пользователю, но обновлены на основе новых показателей усиления информации для документов, на которые есть ссылки.
В некоторых реализациях ссылки могут быть переранжированы и/или один или несколько документов могут быть исключены (или значительно снижены) из результатов поиска на основе новых оценок прироста информации, определенных на основе документа, который уже просмотрел пользователь .”
Что такое интерфейс результатов поиска? Я думаю, что это просто интерфейс, показывающий результаты поиска.
Остановимся, чтобы подчеркнуть, что на этом этапе должно быть понятно, что патент не касается ранжирования веб-страниц, исчерпывающе описывающих тему. Общий контекст изобретения заключается в демонстрации документов в автоматизированном помощнике.
Интерфейс результатов поиска – это просто интерфейс, его никогда не описывают как обычные результаты поиска, это просто интерфейс.
Есть многое другое, что одинаково во всех версиях патента, но выше приведены важные общие очерки и контекст.
Претензии на патент
В разделе претензий описывается объем настоящего изобретения и по которому они ищут правовую защиту. Он в основном сосредоточен на изобретении и в меньшей степени на контексте. Таким образом, в разделе «Претензии» нет ни одного упоминания о поисковых системах, автоматических помощниках, звуковых ответах или TTS (текст в речи). Остался контекст интерфейса результатов поиска, который, вероятно, охватывает все контексты.
Контекст: первый набор документов
Он начинается с определения контекста изобретения. Этот контекст заключается в получении запроса, определении темы и ранжировании первой группы релевантных веб-страниц (документов) и выборе по крайней мере одной из них в качестве релевантной или показа документа, или передачи информации из документа (например, резюме) .
<цитата>
“1. Способ, реализуемый с использованием одного или более процессоров, содержащий: прием запроса от пользователя, при этом запрос включает тему; определение первого набора документов, соответствующих запросу, при этом документы из набора документов ранжируются, и при этом ранжирование данного документа из первого набора документов указывает на релевантность информации, включенной в данный документ, на тему; выбор, на основе рейтинга и из документов первого набора документов, наиболее релевантного документа, предоставляющего по крайней мере часть информации из наиболее релевантного документа для пользователя;~~~~~~~~~~
Контекст: второй набор документов
Тогда сразу следует часть о ранжировании второго набора документов, содержащих дополнительную информацию. Этот второй набор документов ранжируется с использованием баллов получения информации, чтобы показать больше информации после показа соответствующего документа из первой группы.
Вот как это объясняется:
<цитата>
“…в ответ на предоставление пользователю наиболее релевантного документа, получение от пользователя запроса на дополнительную информацию, связанную с темой; идентификацию второго набора документов, причем второй набор документов включает один или более документов первого набора документов и не включает в себя наиболее соответствующий документ; определение для каждого документа второго набора оценки информационного прироста, где оценка информационного прироста для соответствующего документа второго набора базируется на количестве новой информации, включенной в соответствующий документ второго набора, отличную от информации, включенной в наиболее актуальном документе; ранжирование второго набора документов на основе баллов прироста информации; и вызывают представление пользователю по крайней мере части информации из одного или нескольких документов второго набора документов, при этом информация представлена на основе баллов усиления информации.
Подробные детали
Остальные разделы претензий содержат подробные сведения о концепции получения информации, которая является ранжированием документов на основе того, что пользователь уже видел, и представляет связанную тему, которая может заинтересовать пользователя. Цель этих деталей состоит в том, чтобы заблокировать их для правовой защиты как части изобретения.
Вот’пример:
Способ по п. 1, в котором идентификация первого набора содержит:
вызывая воспроизведение, как часть интерфейса результатов поиска, предоставляемого пользователю в ответ на предыдущий запрос, включающий тему, ссылку на один или более документов первого набора;
получение введенных данных пользователя, что указывает на выбор одной из ссылок на определенный документ первого набора из интерфейса результатов поиска, где по крайней мере часть конкретного документа предоставляется пользователю в ответ на выбор;
Проводя аналогию, это описывает, как приготовить тесто для пиццы, почистить и нарезать грибы и т.д. Для наших целей важно понять не столько это, сколько общий вид того, о чем идет речь в патенте.
Патент на получение информации
В социальных сетях распространялось мнение, что этот патент как-то связан с ранжированием веб-страниц в результатах обычного поиска. Я увидел это, прочел патент и обнаружил, что патент работает не так. . Это хороший патент и его важно правильно понимать. Я проанализировал несколько версий патента, чтобы увидеть, что они имели общее и отличное.
Внимательное чтение патента показывает, что он четко сосредоточен на предвидении того, что пользователь может захотеть увидеть на основе того, что он уже видел. Чтобы достичь этого, в патенте описано использование показателя получения информации для ранжирования веб-страниц, относящихся к темам, связанным с первым поисковым запросом, но не связанным с этим первым запросом.
Контекст изобретения — это, как правило, автоматизированные помощники, включая чат-ботов. Поисковую систему можно использовать как часть поиска соответствующих документов, но контекст — это не только обычная поисковая система.
Этот патент может быть применен к контексту AI Overviews. Я бы не ограничивал контекст обзорами AI, поскольку существуют дополнительные контексты, например, разговорный язык, в которых может применяться оценка получения информации. Может ли это применяться в дополнительных контекстах, таких как Featured Snippets? В самом патенте это четко не указано.