Share |

воскресенье, 11 февраля 2018 г.

Анализ рынка вакансий в энергетике РФ




Для меня, как HR-а инхаус в энергетике, анализ рынка вакансий давно представлялся крайне интересной идеей, которую хотелось реализовать. Этот пост стал возможен благодаря Александру Вечерину – как оказанной им помощи с кодом, так и в целом вдохновлён методологией исследования рынка вакансий через джоб-сайты. 










ВВЕДЕНИЕ

В посте приведены результаты анализа рынка вакансий в энергетической отрасли Российской Федерации, для этого в качестве признака парсинга вакансий выбрана отрасль компании: «Энергетика» на джоб-сайте «Hh.ru».
Примечательно то, что, выбирая отрасль компании представляется возможным сравнить вакансии из различных профобластей по уровню заработной платы. Так, к примеру, в энергетике помимо основного технического персонала работают специалисты HR, IT, экономики, области продаж и так далее. Важно отметить, что сравнение данных профобластей осуществлено именно в контексте энергетической отрасли, то есть изолировано от аналогичных вакансий в других отраслях. Такой уровень анализа позволяет выделить наиболее конкурентную профобласть внутри анализируемой отрасли.
Кроме того, дан ответ на извечный вопрос энергетики: в какой сфере заработные платы выше? В генерации энергии, её сбыте или в инфраструктуре?
Датасет содержит следующие переменные:

1. Название компании.
2. Город.
3. Область.
4. Федеральный округ.
5. Наименование вакансии.
6. Уровень заработной платы.
7. Профобласть.
8. Сфера компании.
9. Требуемый опыт.
10. Тип занятости.
11. График работы.
Основной проблемой стало зачастую некорректное указание профобластей специалистами, размещавшими вакансии на «Hh.ru», так специалист по кадрам мог оказаться в категории «Производство», а руководитель электротехнической лаборатории в категории «Добыча сырья». Описанная проблема стала наиболее трудоемкой в устранении и потребовала ручного исправления в датасете. Итоговый вариант содержит следующие категории: HR, IT, Административный персонал, Бухгалтерия, Закупки, Маркетинг/PR, Продажи, Производство, Прочее, Рабочий персонал, Строительство, Транспорт, Экономика, Юриспруденция.
Зависимая переменная – заработная плата, представлена как среднее между «заработной платой от» и «заработной платой до», указанными в описании вакансии.
Федеральные округа были добавлены технически уже после выгрузки вакансий. Парсинг осуществлён в шесть этапов, отдельно для признаков: профобласть, сфера компании, область, требования к опыту, тип занятости и график работы. Полученные промежуточные датасеты были совмещены в один: "energy".
АНАЛИЗ ДАННЫХ

По состоянию на февраль 2018 года на сайте Hh.ru размещено 432 566 вакансий, из них в энергетике 2975 (0,6%), с указанием заработной платы 1713 (57% от всех вакансий исследуемой отрасли), приведенное количество вакансий со сведениями об уровне заработной платы и стало предметом анализа.
Общий взгляд на количество вакансий по областям РФ позволяет сделать приведенный рисунок:


Закономерно наибольшее количество вакансий в Москве и Санкт-Петербурге. Кемеровская область занимает четвертое место по количеству вакансий в энергетике.

На следующем рисунке представлено распределение данных отклика. Как видно переменная не описывается нормальным законом распределения, а также имеет выбросы, что будет учитываться при построении модели прогноза.
Средний уровень заработной платы по энергетическим вакансиям составляет 46 т.р. Далее осуществлён анализ уровня заработной платы в разрезе условий:

1. В зависимости от профобласти
На рисунке видно, что наибольшая медиана соответствует продажам в энергетике, а наименьшая рабочему персоналу, различия по признаку достоверны (Краскел-Уоллис, p-value < 2.2e-16).
Анализ вакансий в энергетике показывает медианную зарплату для HR на уровне 35 т.р., но это данные открытых предложений, интересным представляется сослаться на данные исследования факторов текучести Э. Бабушкина, согласно которому респонденты HR имеют медианную зарплату в энергетике на уровне 40 т.р. (ноябрь 2017) (исследование факторов текучести)

2. В зависимости от сферы компании
Медианы зарплат по сферам компании практически идентичны, при этом различия достоверны (Крускал-Уоллис, p-value < 2.2e-16). Из графика видно, что разлчиия вызваны наличием выбросов для отдельных категорий.
Отвечая на главный вопрос энергетиков, все же следует акцентироваться на том, что не смотря на статистические различия, медианы заработных плат очень близки в зависимости от сферы компании.

3. В зависимости от федерального округа
Критерий Крускала-Уоллиса и в данном случае обнаруживает статистически достоверные отличия (p-value < 2.2e-16). Наибольшая медиана в ДФО, наименьшая в СкФО, но в последнем всего одна вакансия.

Для типа занятости и графика работы также проверена гипотеза о различиях по уровню заработной платы и также подтверждена с помощью критерия Крускала-Уоллиса.

Как и в исследовании 7 факторов зарплаты HR (анализ рынка России, декабрь 2017) А. Вечерина построена регрессионная модель.  На этапе предварительного анализа было выявлено отклоняющаяся от нормального вида распределения в связи с чем уравнение регрессии принимает следующий вид:

lm(log(Зарплата)~Профобласть+Опыт+Занятость+График+Округ

Переменная «Сфера» оказалась незначимой, в связи с чем не была включена в итоговую модель.
В таблице представлены значимые, экспонированные коэффициенты:

Остатки:
    Min      1Q  Median      3Q     Max
-2.7279 -0.2039 -0.0079  0.1876  1.2883

Коэффициенты
                                                                Estimate Pr(>|t|)   
(Intercept)                                               144521     2e-16 ***
Профобласть IT                                     1.353644   6.63e-06 ***
Профобласть Продажи                       1.642862   2.82e-15 ***
Профобласть Производство              1.179334   0.005025 **
Профобласть Рабочий персонал      0.8782623  0.030541 * 
Профобласть Строительство             1.215554   0.003668 **
Опыт нет опыта                                     0.5378153  2e-16 ***
Опыт от 1 до 3 лет                                0.6312836  2e-16 ***
Опыт от 3 до 6 лет                                0.7900018  1.96e-06 ***
Занятость Частичная занятость         0.8373359  0.049096 * 
График Гибкий график                         0.2881771  2e-16 ***
График Полный день                           0.4662562  2e-16 ***
График Сменный график                    0.4008973  2e-16 ***
График Удаленная работа                  0.6956699  0.001296 **
Округ Приволжский ФО                      0.6844429  3.60e-06 ***
Округ Северо-Западный ФО              0.7421455  0.000959 ***
Округ Северо-Кавказский ФО           0.6049376  0.021364 * 
Округ Сибирский ФО                           0.6609282  4.35e-07 ***
Округ Уральский ФО                            0.7352461  0.000306 ***
Округ Центральный ФО                      0.7271445  0.000114 ***
Округ Южный ФО                                0.6966863  2.77e-05 ***
  
 R2 = 0.55 и статистически значим p-value: < 2.2e-16. Для проверки предиктивности модели была введена новая вакансия: Профобласть="HR", Опыт="от 3 до 6 лет", Занятость="Полная занятость", Округ="Сибирский ФО", График="Полный день".
Экспонированное прогнозное значение составило 35 183 р.
Несмотря на высокий R2 модель обнаруживает проблему гетероскедастичности, что не совсем очевидно на Рисунке (указание на выброс), но подтверждается критерием Бройша-Пагана p-value < 2.2e-16. Следовательно данной модели нельзя доверять, вероятнее всего это связано с наличием выбросов, проблема которых не была устранена логорифмированием.

ЗАКЛЮЧЕНИЕ
Проведенный анализ вакансий в энергетике продемонсрировал различе уровня заработной платы в зависимости от профобласти, сферы компании, географии, типа занятости и графика работы. Вместе с тем, полученная регрессионная модель нуждается в совешенствовании качества (утсранение гетероскедастичности).
Для чистоты эксперимента необходимо провести парсинг вакансий с других крупных, российских джоб-сайтов: «Зарплата.ру», «SuperJob.ru». Автор обращается за помощью ко всем коллегам аналитикам, кто поделится кодом в R (можно попробовать Python) для выгрузки вакансий через API этих сайтов.


13 комментариев:

  1. у меня один вопрос: а что значит на физическом уровне последняя диаграмма?
    ну на пальцах сможете мне объяснить?

    ОтветитьУдалить
    Ответы
    1. Если на пальцах, то как соотносится прогнозное значение с разницей между прогнозом и фактическим значением (остаток) для каждого наблюдения. Я кстати в рисунке особой структуры не вижу, скос небольшой, скорее всего выброс портит всю картину в плане гетероскедастичности.

      Удалить
    2. Ну тогда по другому: на каких этажах зарплаты скос?

      Удалить
    3. Судя по графику начинается где-то на 11.5, но это логарифм, в рублях около 100 т.р. получается. А с другой стороны удалить 9.5 - это приблизительно 13 т.р.

      Удалить
    4. ну я к чему веду.
      у вас после 100 тыс рублей начинается систематическая ошибка. Отрицательные значения residuals говорят о том, что у вас фактическое значение меньше прогнозного.

      Удалить
  2. Я не понял, а что было в качестве интерсепта? Судя по данным - Опыт работы больше 6 лет, полная занятость, какой-то график работы, какая-то профобласть и какой-то федеральный округ. Очень трудно анализировать регрессию с фиктивными переменными не зная интерсепта. Чтобы управлять тем, что R поместит в интерсепт можно использовать команду
    (это ваша фиктивная переменная) dummy <- factor(dummy, levels=c("noExperience","between1And3","between3And6", "moreThan6"))
    В этом случае R в качестве базового уровня сделает отсутствие опыта.

    ОтветитьУдалить
    Ответы
    1. Базовый уровень можно понять и на основе одной недостающей категории при анализе summary(lm), я, правда, оставил для читателей только значимые категории, поэтому и не ясно. Для графика - "более 6 лет", для округа - "ДФО", с профобластью сейчас не воспроизведу, надо брать откорректированный в ручную датасет. Но мысль понял, Александр, надо было указать.

      Удалить
  3. добрый день, спасибо за статью. хотелось бы услышать мнение коллег из отрасли: насколько внутреннее знание совпалает с анализом. вопрос: в анализ зп попалм 57% вакансий. это достаточный об'ем для делания выводов по отрасли?

    ОтветитьУдалить
    Ответы
    1. хороший вопрос)
      можно дополнить: как мы можем быть уверены, что оставшиеся 43 % не изменят показателей зарплаты?

      Удалить
    2. Лично моё мнение не достаточно одного Hh.ru, почему так и озабочен освоением других данных - Зарплата.ру и SJ. Что касается того, насколько это соответствует рынку, могу сказать по тем вакансиям, что я размещал работая в энергетике - да, достаточно близко, по крайней мере, по Кемеровской области.

      Удалить
  4. Александр, и чисто технически: делите зарплату на 1 000 - так ось Y будет легче восприниматься

    ОтветитьУдалить

Популярные сообщения

п