Что сорсеру нужно знать про скрапинг данных

Наглядное руководство по скрапингу с обзором популярных инструментов для работы с данными

Скрапинг позволяет рекрутеру тратить в разы меньше времени на обработку поисковой выдачи. С его помощью вы можете автоматизировать сбор данных о кандидатах, а освободившееся время потратить на что-то важное — например, на выстраивание первичного контакта.

О том, что такое скрапинг и зачем он рекрутеру, мы поговорили с Язилей Насибуллиной — основателем кадрового агентства Tech-recruiter и Академии IT-рекрутинга.  

 

Язиля Насибуллина, основатель агентства Tech-recruiter, автор канала IT-рекрутинг

Что такое скрапинг и зачем он нужен

Скрапинг — это способ автоматизировать сбор информации. Например, вы составили X-ray-запрос и получили выдачу в гугле на 40 страниц. Что делать дальше? Можно вручную заходить на каждую страницу, выбирать и сохранять подходящие профили. На это уйдет вечность.

А можно воспользоваться скрапером — специальной программой, которая за минуту сама пробежится по страницам и сохранит все профили в таблице, разложив данные о кандидатах по ячейкам.

Основная задача скрапинга — ускорение сорсинга. Но скрапинг используется и в других случаях, когда нужно вытащить и структурировать информацию с какого-то ресурса. 

Скрапинг нужен не всегда, это инструмент для продвинутого сорсинга. Вот когда он пригодится:

  1. Для работы с большой поисковой выдачей. Например, при поиске кандидатов по популярному стеку технологий среди всех людей, которые есть в выбранной стране. А если вы составили запрос и получили всего 10 профилей, то скрапить здесь нечего.
  2. Чтобы оценить рынок и сформировать лонглист. Для рекрутера, особенно внешнего, важно, чтобы заказчик осознавал объем рынка. Можно рассказать ему на словах, сколько всего есть кандидатов. Но лучше показать полный список людей, которым можно предложить вакансию: так убедительнее.
  3. Чтобы освободить время. Скрапинг экономит часы работы на сбор и систематизацию информации, составление таблиц, отчетов и пайплайнов. Освободившееся время можно потратить на персонализацию общения и копирайтинг. Ведь наша задача — не только найти кандидата, но и сделать все, чтобы заинтересовать его. 

Инструменты для скрапинга

Чтобы автоматизировать сбор данных, понадобится программа-скрапер. Чаще всего сорсеры пользуются одним из трех скраперов: Instant Data Scraper, PhantomBuster и Data Miner. Я предпочитаю первые два, потому что Data Miner неудобен и сложен в настройках. 

Дополнительно может понадобиться расширение AutoPagerize — оно разворачивает страницы поисковой выдачи на одном экране. 

Расскажу об этих программах и покажу основные сценарии использования.

AutoPagerize

Стоимость: бесплатно.

Скачать расширение: для Chrome, Opera.

Большинство скраперов не умеют самостоятельно проходить по страницам поисковой выдачи. Они просто берут информацию, которая есть на экране.

Чтобы не скрапить каждую страницу по отдельности, можно воспользоваться расширением AutoPagerize. Оно автоматически выгружает все страницы в одно большое «полотно», подготавливая данные для скрапинга. 

AutoPagerize хорошо работает с поисковыми системами, например с Гуглом и Яндексом. А вот подгружать данные внутри Хедхантера, LinkedIn и GitHub расширение не умеет.

Как использовать. Нужно установить расширение, а потом скроллить вниз до тех пор, пока не подгрузится вся нужная вам информация.

 
Для удобства навигации AutoPagerize нумерует подгруженные страницы и отделяет их друг от друга чертой

Instant Data Scraper

Стоимость: бесплатно.

Скачать: расширения для Chrome и Microsoft Edge.

Cкрапер забирает данные с открытой веб-страницы и создает из них таблицу. Эту таблицу можно выгрузить в эксель или в файл формата CSV и уже потом с ней работать. По заявлению разработчиков, расширение использует искусственный интеллект, чтобы понять, какие данные скрапить.

Instant Data Scraper не работает на сайте LinkedIn. Если нужны кандидаты из этой соцсети, их можно достать с помощью X-ray-запроса, а уже потом соскрапить из гугла.

Как использовать Instant Data Scraper 

Алгоритм такой:

  1. Установите AutoPagerize и Instant Data Scraper.
  2. В поисковой строке гугла введите X-ray-запрос.
  3. Скролльте вниз до упора, пока AutoPagerize не подгрузит все нужные вам страницы.
  4. Нажмите на значок Instant Data Scraper в правом верхнем углу браузера.
  5. Загрузится предварительная таблица. Если она вам не подходит, то жмите на кнопку Try another table, а потом на Start crawling.

Вы получите примерно такую таблицу со множеством столбцов:

 
 

Если какие-то столбцы вам не нужны, то удалите их, нажав на крестик. Когда таблица будет вас устраивать, выгрузите ее в файл формата CSV или XLSX.     

PhantomBuster

Стоимость: от 48 долларов в месяц, но есть бесплатный триал-период.

Скачать: сначала нужно зарегистрироваться на сайте, потом скачать расширение для Chrome или FireFox

Это не просто скрапер, а мощный автоматизатор. В том же Instant Data Scraper нельзя выгрузить информацию из LinkedIn без помощи X-ray-запросов, а PhantomBuster это умеет. Он напрямую работает со следующими соцсетями и платформами:

  • LinkedIn,
  • GitHub,
  • Reddit,
  • Slack,
  • инстаграм*,
  • фейсбук*,
  • твиттер,
  • ютуб.

Сервис предлагает набор фантомов — роботов, которые выполняют за вас какую-то работу. Каждый фантом умеет что-то свое: один собирает данные на GitHub, другой скрапит на LinkedIn, третий способен еще и отправить приглашения в друзья, четвертый ставит лайки, пятый пишет фоллоу-апы.

Для каждой автоматизации нужно создавать отдельного фантома, причем их количество ограничено тарифом. Так, в бесплатном триал-периоде дают 5 слотов под фантомов, а в самом дорогом тарифе — 50.

Как использовать PhantomBuster 

Допустим, вы хотите выгрузить данные из LinkedIn — для такого скрапинга нужен фантом Linkedin Search Export. Сейчас подробно объясню, как им пользоваться.

Первым делом зарегистрируйтесь на сайте и скачайте расширение для браузера — оно поможет синхронизировать PhantomBuster с вашим аккаунтом в соцсети.

Далее на сайте сервиса зайдите в раздел с фантомами, найдите Linkedin Search Export и нажмите кнопку Use this Phantom:

 
 

Теперь нужно соединить PhantomBuster с вашим аккаунтом в LinkedIn. Для этого нажмите на кнопку Connected to LinkedIn, а потом Save:

 
 

Теперь перейдите в свой LinkedIn и напишите запрос в поле внутреннего поиска. Скопируйте адрес страницы с результатами поиска, вернитесь в PhantomBuster и вставьте его в поле Your searches. 

В этом же окне можно исключить из выгрузки людей, которые вам знакомы. Например, я всегда убираю галочку напротив пункта 1st-degree connections: если уж начала сорсить и скрапить, значит, мой ближайший круг друзей уже отработан — нет смысла к ним возвращаться.  

 
 

Далее откроется раздел Behavior, где можно настроить скрапинг более тонко. Например, указать, сколько всего результатов нужно соскрапить, или разбить выгрузку на несколько запусков.

Сам PhantomBuster рекомендует не скрапить более 1000 результатов в день с обычного аккаунта. На мой взгляд, это перестраховка: я активно выгружаю информацию из LinkedIn без каких-либо последствий. Самое неприятное, что может быть, — придется вводить капчу.  

 
 

Далее нужно указать, как будет запускаться фантом — вручную или автоматически. Также можно покопаться в продвинутых опциях: 

  • настроить уведомления о завершении скрапинга; 
  • подключить прокси-сервер;
  • задать способ обновления информации: допустим, вы перезапускаете фантом — новые данные должны затирать старые или будут добавляться к ним?
 
 

Ваш первый фантом готов к работе. Для старта жмите кнопку Launch и ждите результата. Вы получите таблицу — ее можно выгрузить в файл формата CSV и обработать.

 

Что делать с выгрузкой дальше

Можно быстро прокликать кандидатов и разослать им письма — например, из того же PhantomBuster. 

Есть и другой сценарий: например, я проскрапила список участников конференции или митапа — получилась таблица с именами, фамилиями и электронной почтой. Могу дополнить эти данные: в PhantomBuster есть фантом, который ищет профили кандидатов на LinkedIn и добавляет ссылки в таблицу. 

Еще я использую скрапинг, чтобы быстро составлять отчетность заказчику. У нас есть большая таблица со всеми кандидатами: 

 
 

Клиент может посмотреть по таблице, с кем мы работаем, кого и когда добавили, на какой стадии подбора находятся соискатели. А мне такой отчет позволяет анализировать подбор. Чтобы не заполнять все вручную, я беру проскрапленную таблицу и добавляю в общий пайплайн.

Еще один неочевидный способ применения данных — создание синонимайзера. Рекрутеру важно знать все варианты, как может называть себя кандидат, ведь по этим ключевым словам и ведется поиск. Работа с большими выборками данных позволяет обогатить синонимайзер.

Язиля Насибуллина делится с читателями блога Хантфлоу собственным синонимайзером →

 

Короче говоря

  1. Скрапинг данных — это инструмент для быстрой обработки информации, который значительно ускоряет сорсинг. 
  2. Скрапер — программа, которая достает и систематизирует данные с веб-страниц. Я пользуюсь двумя скраперами: Instant Data Scraper и PhantomBuster.
  3. Instant Data Scraper собирает данные только с открытой страницы — он не умеет самостоятельно перемещаться по сайту. Если у вас многостраничная выдача, воспользуйтесь расширением AutoPagerize. Оно развернет всю информацию на один экран.
  4. Скрапинг — лишь одна из многочисленных возможностей PhantomBuster. Этот сервис сам умеет обходить все страницы поисковой выдачи — ему не нужен AutoPagerize. Единственный минус PhantomBuster — он платный. 
  5. Как использовать полученные данные:
  • для рассылки писем и сообщений кандидатам;
  • для отчетности;
  • чтобы составить лонглист и продемонстрировать заказчику объем рынка;
  • для прокачки синонимайзера.

* Организация Meta (владелец соцсетей Facebook и Instagram) признана экстремистской и запрещена на территории РФ.