Как создать собственную поисковую систему

Урок продвинутого сорсинга

Custom Search Engine (CSE) — мощный инструмент профессионального сорсера. С его помощью можно создать поисковый движок, который будет находить нужных вам кандидатов именно в тех источниках, которые вы укажете.    

Основатель кадрового агентства Tech-recruiter и Академии IT-рекрутинга Язиля Насибуллина объяснила, как создать и настроить CSE. А для тех, кто не хочет возиться с настройками, Язиля рассказала про готовые движки для поиска на GitHub, LinkedIn, Behance, Хабр Карьере и в других источниках. 

О чем вы узнаете

Что такое CSE и зачем он нужен

Как создать поисковый движок в стандартном интерфейсе

Как создать поисковый движок в новом интерфейсе

Настройка: как добавить запрос

Настройка: как добавить уточнения

Настройка: как добавить синонимы

Как искать с помощью CSE

Где взять готовые поисковые движки

 

Язиля Насибуллина, основатель агентства Tech-recruiter, автор канала IT-рекрутинг

Зачем сорсеру CSE

CSE — это инструмент от компании Гугл, который позволяет настроить поиск под свои задачи:

  • выбрать ресурсы или даже разделы сайтов, которые нужно сканировать;
  • искать в определенных регионах;
  • задать синонимы, которые будут автоматически подставляться в запрос;
  • нацелить поиск на конкретные типы файлов;
  • и многое другое, о чем я еще расскажу.

Владельцы сайтов пользуются CSE, чтобы организовать внутренний поиск по своим ресурсам. А сорсеры применяют этот инструмент, чтобы экономить время и получать максимально качественные выдачи.

Когда полезен Custom Search Engine:

  1. Не хватает возможностей X-ray и внутреннего поиска по сайту. Например, можно создать поисковый движок для GitHub и LinkedIn, используя операторы, которые работают только внутри CSE. Кроме того, поисковый запрос в Гугле ограничен 32 словами — Custom Search Engine позволяет обойти этот лимит. 
  2. Нужно ограничить поиск на определенных сайтах, добавить или исключить конкретные регионы. В стандартном поиске Гугла это сделать сложнее — часто в выдачу попадают нерелевантные результаты, несмотря на оператор «-».
  3. Надо настроить поиск для начинающих ресечеров и рекрутеров. Например, опытный сорсер создает набор движков, которыми будут пользоваться его коллеги — просто вбивать название должности и получать резюме. Но нужно учитывать, что один и тот же запрос может давать разные результаты в зависимости от настроек и страны нахождения пользователя.
  4. Необходимо найти редкого эксперта с уникальным стеком — можно создать под него отдельный движок. И наоборот: чем стандартнее запрос и больше кандидатов на рынке, тем меньше нужны все эти «сорсинговые штучки». 
 

Как создать поисковый движок

Зайдите в сервис «Программируемая поисковая система» и выберите, в каком интерфейсе будете работать — в стандартном или новом. 

 

Создание движка в стандартном интерфейсе

Здесь нужно указать: 

  • сайты для поиска; 
  • язык; 
  • название системы — желательно осмысленное, чтобы быстро находить нужный вариант, когда у вас будет набор движков на все случаи жизни. 

Например, создаю систему для поиска по профилям пользователей на LinkedIn:

 
 

Здесь я указываю адрес linkedin.com/in, где хранятся личные страницы пользователей, и использую символ *, чтобы искать по всем доменам соцсети. В поле «Язык» можно выбрать язык выдаваемого профиля, но я не советую этого делать. Даже если вы ищете русскоязычных разработчиков, то стоит помнить — это международный сайт, поэтому многие пользователи заполняют профиль на английском. 

Как только докажу, что я не робот, и нажму на кнопку «Создать», меня перебросит на следующую страницу со ссылкой на поисковую систему — движок уже будет работать.

 

Создание движка в новом интерфейсе

Сначала нужно выбрать название системы и указать сайты, по которым надо искать. Потом этот список сайтов можно будет изменить в настройках. Например, создам движок для Хабр Карьеры:

 
 

Кстати, можно не ограничиваться конкретными сайтами, а задать целые доменные зоны, например так: *.ru или *.com. Когда я нажму кнопку «Создать», мне предложат настроить систему:

  1. Выбрать регион поиска — разрешается указать только один. По моему опыту, лучше оставить «Все регионы», а зоны поиска корректировать с помощью доменов и ключевых слов.
  2. Добавить в поиск новые сайты.
  3. Исключить из поиска какие-то адреса. Можно убрать из области поиска не только сайт целиком, но и отдельные веб-страницы или разделы (www.example.com/jobs/*), а также весь домен (*.example.com).

Я настраиваю поиск кандидатов по Хабр Карьере, так что исключу разделы с вакансиями, курсами и информацией о компаниях:

 

Продвинутая настройка CSE

Предупрежу сразу: все настройки я буду проводить в стандартном интерфейсе — так привычнее. Кроме того, на момент выхода этой статьи новая версия панели управления считается предварительной — многое еще может поменяться. В целом, различия между версиями косметические. Если научиться работать в старом интерфейсе, то будет легко найти аналогичные разделы в новой панели.   

Самые полезные настройки находятся в подразделе «Функции в результатах поиска» раздела «Изменение поисковой системы»:

 
 

Добавление запроса

Можно прописать дополнительные запросы, которые будут включаться в поиск автоматически. Для этого: 

  1. В разделе «Функции в результатах поиска» нужно перейти во вкладку «Дополнительно».
  2. Открыть там раздел «Настройки веб-поиска».
  3. В поле «Добавление запроса» вписать фразу, которая будет подставляться автоматически — писать ее при каждом запросе не придется. 

Например, сделаю движок для поиска файлов в формате pdf и docx — предполагается, что это будут резюме. Использую оператор «filetype»:

 
 

Уточнения

Усовершенствую движок для LinkedIn — настрою поиск так, чтобы отдельно показывались профили кандидатов с контактными данными. Это можно сделать с помощью уточнений.

В разделе «Функции в результатах поиска» нужно перейти во вкладку «Уточнения», нажать на кнопку «Добавить» и создать дополнительные условия поиска. Результаты по каждому условию будут выводиться на отдельную вкладку.

Например, добавлю поиск по всем профилям, в которых есть почта на gmail.com и ссылка на телеграм:

 
 

Синонимы

Вручную прописывать десятки синонимов через OR при каждом запросе утомительно. В CSE для каждого ключевого слова можно задать набор синонимов, которые будут добавляться автоматически.

Для этого надо: 

  1. Перейти в раздел «Функции в результатах поиска», а оттуда — во вкладку «Синонимы». 
  2. Нажать на кнопку «Добавить». 
  3. На верхней строчке написать ключевое слово, а на нижней — набор синонимов к нему.
 
 

Как искать с помощью CSE

Если перейдете по ссылке вашего поискового движка, то вы увидите обычную поисковую строку и больше ничего. Не нужно писать «site:» и название сайта для поиска — этот запрос скрыт «под капотом» системы, как и остальные настройки. А в остальном здесь работают все стандартные операторы, в том числе: OR, – , “ ”.

Например, так будет выглядеть запрос в движке для LinkedIn на поиск PHP-разработчиков из Москвы:

 
 

Сейчас движок сканирует всю страницу пользователя целиком. Но существуют операторы, которые позволяют ориентировать его поиск по конкретным блокам и элементам профиля. Например, в LinkedIn, Xing, ResearchGate, Google Scholar и Speakerhub работают такие операторы:

  • «more:p:person-jobtitle:» — поиск по позиции; 
  • «more:p:person-org:» — поиск по компании или учебному заведению;
  • «more:p:person-role:» — поиск в заголовке страницы. 

А у GitHub есть свой оператор, который обращается к строке «о себе» — «more:p:metatags-og_description:».

 

Готовые поисковые движки

Вам не обязательно создавать движок самостоятельно — можно воспользоваться готовыми вариантами, если они подходят под ваши задачи. Например, поисковики от Ирины Шамаевой и Балажа Парочай:

Мои поисковые системы:

  1. GitHub.
  2. Behance — поиск резюме. Настройки самые простые: в сайтах для поиска я указала «behance.net/*/resume» — раздел, где хранятся резюме пользователей.
  3. Хабр Карьера. Здесь к каждому допросу автоматически добавляется фраза «последний визит», чтобы искать только по личным страницам пользователей.
  4. Европейский LinkedIn. Я занимаюсь международным рекрутингом и ищу кандидатов по всей Европе. Для этого сделала движок поиска по доменным областям LinkedIn тех стран, которые мне интересны.
 
 

Главное про CSE

  1. Custom Search Engine — инструмент для создания собственных поисковых систем. С его помощью сорсер экономит время и получает более релевантные результаты.
  2. Принцип простой: вы один раз проводите настройку, убирая повторяющиеся части запросов и синонимы «под капот», а потом используете систему, чтобы находить подходящих кандидатов. 
  3. Чтобы часть запроса подставлялась автоматически:
  • перейдите во вкладку «Дополнительно» в разделе «Функции в результатах поиска»;
  • откройте раздел «Настройки веб-поиска»;
  • в поле «Добавление запроса» впишите нужную фразу.
  1. Можно добавлять или исключать из поиска целые доменные зоны, сайты целиком, отдельные страницы и разделы. 
  2. Настройка «синонимы» позволяет задать набор синонимов, которые будут автоматически добавляться к запросу для каждого ключевого слова.
  3. С помощью уточнений вы можете создать вкладки с результатами ответов на дополнительные запросы. Например, это удобно, когда нужно посмотреть, у кого из найденных кандидатов есть контактные данные в профиле.