Новые правила дадут издателям возможность блокировать всех ботов для обучения искусственному интеллекту, используя доступные стандарты

Разрабатываются новые стандарты для расширения протокола исключения роботов и тегов Meta Robots, что позволяет им блокировать использование общедоступного веб-содержимого для обучающих целей всем сканерам ИИ. Предложение, разработанное Кришной Мадхаваном, главным менеджером продуктов Microsoft AI, и Фабрисом Канелем, главным менеджером продуктов Microsoft Bing, позволит легко блокировать все стандартные сканеры AI Training с помощью одного простого правила, которое можно применить к каждому отдельному сканеру.

Практически все законные сканеры подчиняются тегам Robots.txt и Meta Robots, что делает это предложение мечтой для издателей, которые не хотят, чтобы их содержимое использовалось для обучения ИИ.

Internet Engineering Task Force (IETF)

Internet Engineering Task Force (IETF) — это международная группа стандартов Интернета, основанная в 1986 году, координирующая разработку и кодификацию стандартов, с которыми каждый может добровольно согласиться. К примеру, протокол исключения роботов был независимо создан в 1994 году, а в 2019 году Google предложил IETF принять его как официальный стандарт с согласованными определениями. В 2022 году IETF опубликовала официальный протокол исключения роботов, который определяет, что это такое, и расширяет исходный протокол.

Три способа блокировать ботов для обучения ШИ

Черновик предложения по блокированию учебных ботов ИИ предлагает три способа блокировки ботов:

<ол>

  • Протоколы Robots.txt
  • Элементы HTML Meta Robots
  • Заголовок ответа уровня программы
  • 1. Robots.Txt для блокировки роботов AI

    Проект предложения направлен на создание дополнительных правил, которые распространят протокол исключения роботов (Robots.txt) на роботов для обучения AI. Это внесет определенный порядок и даст издателям возможность выбрать, каким работам разрешено сканировать их веб-сайты.

    Соблюдение протокола Robots.txt является добровольным, но все законные сканеры имеют тенденцию подчиняться ему.

    Черновик объясняет назначение новых правил Robots.txt:

    “Протокол выключения роботов позволяет владельцам служб контролировать, как автоматизированные клиенты, известные как сканеры, могут получать доступ к URI своих служб, как определено [ RFC8288], протокол не обеспечивает управление тем, как данные, возвращенные их сервисом, могут использоваться для обучение генеративных базовых моделей ИИ.

    Просим разработчиков приложений придерживаться этих тегов. Однако теги не являются формой авторизации доступа.&6;

    Важным свойством новых правил robots.txt и мета-работ HTML-элементов является то, что законные обучающие сканеры AI, как правило, добровольно соглашаются соблюдать эти протоколы, что есть то, что делают все законные боты. Это упростит блокировку ботов для издателей.

    Ниже приведены предложенные правила Robots.txt:

    <цитата>

    • DisallowAITraining – предписывает синтаксическому анализатору не использовать данные для языковой модели обучения ИИ.
    • AllowAITraining – указывает синтаксическому анализатору, что данные можно использовать для языковой модели обучения ИИ.

    2. Элемент HTML (метатэг robots)

    Ниже приведены предложенные директивы метароботов:

    <цитата>

    • <meta name=”работы” content=”DisallowAITraining&quo;”>
    • &met;meta name=”examplebot” content=”AllowAITraining&quo;rdquo;>

    3. Заголовок ответа уровня программы

    Заголовки ответа прикладного уровня отправляются сервером в ответ на запрос браузера относительно веб-страницы. Предложение предлагает добавить новые правила к заголовкам ответов на прикладном уровне для роботов:

    “DisallowAITraining – предписывает синтаксическому анализатору не использовать данные для языковой модели обучения ИИ.

    РазрешитьAITraining – указывает синтаксическому анализатору, что данные можно использовать для обучающей языковой модели ИИ.

    Обеспечивает лучший контроль

    Компании искусственного интеллекта безуспешно судились в суде за использование общедоступных данных. Компании искусственного интеллекта утверждают, что сканирование общедоступных веб-сайтов является добросовестным использованием, как это делали поисковые системы в течение десятилетий.

    Эти новые протоколы дают веб-издателям контроль над сканерами, целью которых является потребление учебных данных, согласуя эти сканеры с поисковыми сканерами.