Для меня, как HR-а инхаус в энергетике, анализ рынка вакансий давно представлялся крайне интересной идеей, которую хотелось реализовать. Этот пост стал возможен благодаря Александру Вечерину – как оказанной им помощи с кодом, так
и в целом вдохновлён методологией исследования рынка вакансий через джоб-сайты.
ВВЕДЕНИЕ
В посте
приведены результаты анализа рынка вакансий в энергетической отрасли Российской
Федерации, для этого в качестве признака парсинга вакансий выбрана отрасль
компании: «Энергетика» на джоб-сайте «Hh.ru».
Примечательно
то, что, выбирая отрасль компании представляется возможным сравнить вакансии из
различных профобластей по уровню заработной платы. Так, к примеру, в энергетике
помимо основного технического персонала работают специалисты HR,
IT, экономики, области продаж и так далее. Важно отметить, что
сравнение данных профобластей осуществлено именно в контексте энергетической
отрасли, то есть изолировано от аналогичных вакансий в других отраслях. Такой
уровень анализа позволяет выделить наиболее конкурентную профобласть внутри анализируемой
отрасли.
Кроме того,
дан ответ на извечный вопрос энергетики: в какой сфере заработные платы выше? В
генерации энергии, её сбыте или в инфраструктуре?
Датасет
содержит следующие переменные:
1. Название
компании.
2. Город.
3. Область.
4. Федеральный
округ.
5. Наименование
вакансии.
6. Уровень
заработной платы.
7. Профобласть.
8. Сфера
компании.
9. Требуемый
опыт.
10. Тип занятости.
11. График работы.
Основной
проблемой стало зачастую некорректное указание профобластей специалистами,
размещавшими вакансии на «Hh.ru», так специалист по кадрам мог оказаться в категории
«Производство», а руководитель электротехнической лаборатории в категории
«Добыча сырья». Описанная проблема стала наиболее трудоемкой в устранении и
потребовала ручного исправления в датасете. Итоговый вариант содержит следующие
категории: HR, IT, Административный персонал, Бухгалтерия, Закупки,
Маркетинг/PR, Продажи, Производство, Прочее, Рабочий персонал, Строительство, Транспорт,
Экономика, Юриспруденция.
Зависимая
переменная – заработная плата, представлена как среднее между «заработной
платой от» и «заработной платой до», указанными в описании вакансии.
Федеральные
округа были добавлены технически уже после выгрузки вакансий. Парсинг
осуществлён в шесть этапов, отдельно для признаков: профобласть, сфера
компании, область, требования к опыту, тип занятости и график работы.
Полученные промежуточные датасеты были совмещены в один: "energy".
АНАЛИЗ
ДАННЫХ
По состоянию
на февраль 2018 года на сайте Hh.ru размещено 432 566 вакансий, из них в энергетике 2975 (0,6%),
с указанием заработной платы 1713
(57% от всех вакансий исследуемой отрасли), приведенное количество вакансий со
сведениями об уровне заработной платы и стало предметом анализа.
Общий взгляд
на количество вакансий по областям РФ позволяет сделать приведенный рисунок:
Закономерно
наибольшее количество вакансий в Москве и Санкт-Петербурге. Кемеровская область
занимает четвертое место по количеству вакансий в энергетике.
На следующем рисунке
представлено распределение данных отклика. Как видно переменная не описывается
нормальным законом распределения, а также имеет выбросы, что будет учитываться
при построении модели прогноза.
Средний
уровень заработной платы по энергетическим вакансиям составляет 46 т.р. Далее осуществлён
анализ уровня заработной платы в разрезе условий:
1. В зависимости от профобласти
На рисунке
видно, что наибольшая медиана соответствует продажам в энергетике, а наименьшая
рабочему персоналу, различия по признаку достоверны (Краскел-Уоллис, p-value
< 2.2e-16).
Анализ
вакансий в энергетике показывает медианную зарплату для HR
на уровне 35 т.р., но это данные открытых предложений, интересным
представляется сослаться на данные исследования факторов текучести Э. Бабушкина, согласно
которому респонденты HR имеют медианную зарплату в энергетике на уровне 40 т.р. (ноябрь
2017) (исследование факторов текучести)
2. В зависимости от сферы компании
Медианы
зарплат по сферам компании практически идентичны, при этом различия достоверны
(Крускал-Уоллис, p-value < 2.2e-16). Из графика видно, что разлчиия вызваны
наличием выбросов для отдельных категорий.
Отвечая на главный вопрос энергетиков, все же следует акцентироваться на том, что не смотря на статистические различия, медианы заработных плат очень близки в зависимости от сферы компании.
3. В зависимости от федерального округа
Критерий
Крускала-Уоллиса и в данном случае обнаруживает статистически достоверные
отличия (p-value < 2.2e-16). Наибольшая медиана в ДФО, наименьшая в СкФО, но
в последнем всего одна вакансия.
Для типа
занятости и графика работы также проверена гипотеза о различиях по уровню
заработной платы и также подтверждена с помощью критерия Крускала-Уоллиса.
lm(log(Зарплата)~Профобласть+Опыт+Занятость+График+Округ
Переменная «Сфера» оказалась незначимой, в связи с чем не была
включена в итоговую модель.
В таблице представлены значимые, экспонированные коэффициенты:
Остатки:
Min 1Q
Median 3Q Max
-2.7279 -0.2039 -0.0079 0.1876 1.2883
Коэффициенты
Estimate Pr(>|t|)
(Intercept) 144521 2e-16 ***
Профобласть IT 1.353644 6.63e-06
***
Профобласть Продажи 1.642862 2.82e-15 ***
Профобласть Производство 1.179334 0.005025 **
Профобласть Рабочий персонал 0.8782623
0.030541 *
Профобласть Строительство 1.215554 0.003668 **
Опыт нет опыта 0.5378153
2e-16 ***
Опыт от 1 до 3 лет 0.6312836 2e-16 ***
Опыт от 3 до 6 лет 0.7900018
1.96e-06 ***
Занятость Частичная
занятость 0.8373359 0.049096 *
График Гибкий график 0.2881771 2e-16 ***
График Полный день 0.4662562 2e-16 ***
График Сменный график 0.4008973 2e-16 ***
График Удаленная работа 0.6956699 0.001296 **
Округ Приволжский ФО 0.6844429 3.60e-06 ***
Округ Северо-Западный ФО 0.7421455 0.000959 ***
Округ Северо-Кавказский ФО 0.6049376 0.021364 *
Округ Сибирский ФО 0.6609282 4.35e-07 ***
Округ Уральский ФО 0.7352461 0.000306 ***
Округ Центральный ФО 0.7271445 0.000114 ***
Округ Южный ФО 0.6966863 2.77e-05 ***
R2
= 0.55 и статистически значим p-value: < 2.2e-16. Для проверки
предиктивности модели была введена новая вакансия: Профобласть="HR",
Опыт="от 3 до 6 лет", Занятость="Полная занятость", Округ="Сибирский
ФО", График="Полный день".
Экспонированное
прогнозное значение составило 35 183 р.
Несмотря на
высокий R2 модель обнаруживает проблему гетероскедастичности, что не
совсем очевидно на Рисунке (указание на выброс), но подтверждается критерием Бройша-Пагана
p-value < 2.2e-16. Следовательно данной модели нельзя доверять, вероятнее
всего это связано с наличием выбросов, проблема которых не была устранена
логорифмированием.
ЗАКЛЮЧЕНИЕ
Проведенный анализ вакансий в энергетике продемонсрировал различе
уровня заработной платы в зависимости от профобласти, сферы компании,
географии, типа занятости и графика работы. Вместе с тем, полученная
регрессионная модель нуждается в совешенствовании качества (утсранение
гетероскедастичности).
Для чистоты эксперимента необходимо провести парсинг
вакансий с других крупных, российских джоб-сайтов: «Зарплата.ру», «SuperJob.ru». Автор обращается за помощью ко всем коллегам
аналитикам, кто поделится кодом в R (можно попробовать Python) для выгрузки вакансий через API этих сайтов.