Научитесь использовать Google Таблицы для веб-скопирования и интегрируйте инструменты ИИ для инновационных стратегий и успеха, управляемого данными.

Сбор данных с веб-страниц является относительно сложной задачей, которая до недавнего времени требовала определенного уровня технических навыков. Идея погрузиться в код или сценарии для извлечения данных казалась необычайной для многих, в том числе и для меня.

Сбор данных может выполнять много задач по оптимизации поисковых систем, таких как аудит, анализ конкурентов и проверка веб-сайта и структуры данных.

Google Таблицы предлагают простые решения, чтобы помочь.

Одним из таких решений является функция IMPORTXML, которая позволяет пользователям очищать данные веб-страницы, используя всего несколько параметров. Это делает извлечение данных доступным для более широкой аудитории, особенно для тех, кто плохо владеет языками программирования.

Несмотря на то, что эта функция поражает, настоящий прорыв произошел с внедрением и интеграцией генеративного ИИ в смесь.

В этом руководстве мы покажем вам, как использовать Google Таблицы и искусственный интеллект, в частности ChatGPT, для копирования веб-страниц, не требуя опытных навыков программирования.

Инструменты: ШИ и чат-боты

Мы все знакомы с ИИ, ChatGPT и подобными чат-ботами.

На самом деле многие из нас используют такие решения, как ChatGPT, для написания собственного кода, сценариев и программ без или с очень ограниченными знаниями программирования. подробные инструкции в форме подсказок и работать с чат-ботом для создания инструментов, которые до недавнего времени мы считали намного выше нас.

Но самое главное то, что это инструменты, которые глубоко меняют наш подход к повседневной работе.

Например, если мы задаем ChatGPT следующий вопрос: “Что такое функция IMPORTXML и как я могу использовать ее в Google Таблицах, чтобы получить заголовок веб-страницы HTML? Предоставьте необходимый код, чтобы сделать это в Google Таблицах,” ответ чрезвычайно точен. За считанные секунды наша формула готова к использованию в Google Таблицах.

Но, честно говоря, это была очень элементарная и простая задача, которую мы могли бы легко выполнить без ChatGPT.

Задание

Итак, как это работает, если мы хотим получить данные, которые менее стандартными по сравнению с названием или описанием страницы?

Например, как это работает, если мы хотим получить следующие данные с первой страницы PPC Journal Search Engine Journal?

Список всех рекомендованных статей, их авторов, URL-адреса ссылок и описание статей для колонок, перечисленных на https://www.searchenginejournal.com/category/paid-media/оплата за клик/.

Можем ли мы сделать это непосредственно с помощью ChatGPT?

Выполнение из ChatGPT

При создании подсказок потребовалось несколько попыток предоставить достаточно подробные инструкции, чтобы чат-бот мог полностью понять цель задачи и вернуть хорошие результаты.

Во многих случаях казалось, что искусственный интеллект вынужден возвращать быстрые результаты, несмотря на их точность.

Но позвольте мне объяснить.

Задание заключалось в том, чтобы проанализировать страницу и составить список всех рекомендованных статей, их авторов, URL-адреса ссылок и описание для каждой из 30 статей, перечисленных на странице. Затем скомпилируйте данные в таблицу и экспортируйте их в файл CSV.

Простой правый?

Сначала ChatGPT вернул только выборку из семи статей и только их заголовки и URL-адреса; после переработанной подсказки ему удалось перечислить и экспортировать все 30 статей и их ссылки.

Это было хорошо. Итак, чтобы выполнить задание, нам просто нужно было добавить авторов и описания статей.

Но здесь бот споткнулся и не смог предоставить точное описание каждой статьи, несмотря на то, что мы предоставили примеры элементов страницы, которые ему нужно найти и скопировать.

ChatGPT продолжал игнорировать инструкции и снова и снова предоставлять собственные описания статей.

ChatGPT даже потерпел неудачу, когда мы попытались применить другой подход и загрузили и загрузили копию HTML-страницы.

How To Use Google Sheets For Web Scraping With AI

Снимок экрана с ChatGPT, февраль 2024 г.

На этот раз он смог предоставить точные данные для семи статей, но не мог пройти мимо этого. О проблеме сообщается:

<цитата>

“…структура и содержимое страницы создают значительные проблемы для комплексного извлечения данных за один сеанс.

Страница достаточно большая и сложная, и невозможно получить все 30 статей в текущем формате взаимодействия.”

<

How To Use Google Sheets For Web Scraping With AI

Снимок экрана с ChatGPT, февраль 2024 г.

ChatGPT + Google Таблицы

Итак, возвращаясь к IMPORTXML и Google Sheets.

На этот раз заставить ChatGPT предоставить формулы для каждого поля было просто ветерком.

How To Use Google Sheets For Web Scraping With AI

Снимок экрана с ChatGPT, февраль 2024 г.

Вот некоторые формулы, предложенные чат-ботом, которые вы можете легко попытаться самостоятельно добыть в Google Таблицах:

Название

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives-wrapper']/статья/div/div[2]/h2/a”)

Имя автора

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives- wrapper']/статья/div/div[2]/p[1]/a”)

URL-ссылка

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives- wrapper']/article/div/div[2]/h2/a/@href”)

Описание

=IMPORTXML(“https://www.searchenginejournal.com/category/paid-media/pay-per-click/”, “//*[@id='archives- wrapper']/article/div/div[2]/p[2]”)

За короткое время мы смогли извлечь данные в электронную таблицу.

How To Use Google Sheets For Web Scraping With AI

Снимок экрана с Google Таблиц, февраль 2024 г.

Кроме того, с помощью простых вложенных формул мы можем быстро получать данные с нескольких страниц одновременно.

В следующем примере мне удалось получить одинаковые данные, связанные с каждой статьей (название, автор, URL-ссылки и описание) для первых 10 страниц раздела PPC.

Результатом является 300 статей, собранных менее чем за минуту!

How To Use Google Sheets For Web Scraping With AI

Снимок экрана с Google Таблиц, февраль 2024 г.

Сравнение двух

Итак, как сравнить ChatGPT и ChatGPT + Google Sheets IMPORTXML?

По своему опыту я не мог найти простого и быстрого способа использования ChatGPT для сбора данных, которые я искал – заметьте, это не означает, что это невозможно, и может быть несколько способов сделать это, но я не нашел ни одного.

Что сработало для меня, так это сочетание различных инструментов, и это очень хорошо послужило мне для моей цели.

ChatGPT был чрезвычайно полезен для написания формул IMPORTXML, которые мне нужно было использовать в Google Таблицах, и эти формулы сделали все остальное.

Дополнительным бонусом опции ChatGPT + Google Sheets является то, что вы можете просто воспользоваться бесплатной версией ChatGPT 3.5 и получить инструмент для создания своих формул IMPORTXML вместо версии 4 для сканирования страницы и извлечения данных.

Ключевой вывод

Это подчеркивает критический аспект того, как ИИ изменил наше мышление и работу.

Наилучший инструмент для работы — это не просто использование искусственного интеллекта, Google Таблиц или любого отдельного программного обеспечения, а скорее сочетание инструментов и навыков.

Благодаря этому интегрированному подходу мы разрабатываем рабочие процессы, которые являются эффективными и эффективными, таким образом улучшая нашу общую производительность.