.

Сделать репост в соц сети!

пятница, 15 декабря 2017 г.

Какой функционал HR на самом деле бывает: кластерный анализ



В нашем исследовании факторов текучести и эффективности персонала, в котором вы, конечно же поучаствовали, а также пригласили друзей и знакомых с коллегами, а также помните, что опрос действующий, и вы можете участвовать сами при смене работы и приглашать друзей дальше, был вопрос: "Описание функционала".
Вот из этого вопроса и родилась идея поста. 
Здесь мы сами прописываем свой функционал. Не из должностной инструкции, а как мы себе его понимаем на самом деле. И это заставляет меня думать, что мы получим более вадидные результаты, чем, например, если бы мы с вами сделали тоже самое порезультатам анализа вакансий или резюме на джоб сайте: вакансии содержат чаще всего 1) формальные требования, 2) то, чем кандидат реально не будет заниматься, ну а резюме это идеальный образ себя. 
В нашем опросе респонденты пишут кратко по сути свой функционал, отмечая существенное. Причем, думаю, делают они это осознанно, поскольку бОльшая часть респондентов предполагают получить отчет, насколько их зарплата в рынке, постольку функционал пишут самый ключевой. 
На сегодня я собрал данные по функционалу от более чем 3 000 HR-ов. По меркам Больших Данных это смехуе, но не ждать же мне вас еще пять лет, пока вы поучаствуете в опросе!

Задача

Моя же задача как аналитика состоит в том, чтобы обработать текст и вычленить из него устойчивые кластеры -типы функционала.
Сразу скажу, что заниматься кластерным анализом вообще задача неблагодарная, по той простой причине, что нет здесь единственно верного решения, возможно получения нескольких результатов, но выбираешь всегда компромисс между метриками качества модели и интерпретабилиумостью кластеров. 
Для специалистов сообщу, что взял просто Kmeans++ без TruncatedSVD и нормализации. 
Остановился я в итоге на 7 кластерах, хотя Elbow метрика показывает усточнивый рост до 20-ти кластеров, но совершенно понятно, что интепретабельность факторов падает резко.

Результат

Какой функционал HR на самом деле бывает: кластерный анализ


Для непрофессионалов: на картинке показано пространство смыслов функционала, цвет точек соответствует кластеру, и есть номер кластера. Таким образом можно оценить размер кластера (сколько примерно HR входят в этот кластер), какие кластеры ближе к друг другу. Содержание кластеров таково:
  • Cluster 0: обучение развитие персонал оценка подбор
  • Cluster 1: подбор персонал адаптация оценка обучение
  • Cluster 2: кадровый делопроизводство рекрутинг подбор персонал
  • Cluster 3: подбор персонал управление отдел работа
  • Cluster 4: директор hr персонал управление 
  • Cluster 5: компенсация льгота бюджетирование hr направление
  • Cluster 6: hr generalist управление проект 
Красиво, правда? 
Первые слова в кластере означают бОльший вес в кластере. Поэтому кластер 2 это больше про кадровое делопроизводство, чем про подбор (еще раз: можно было выделить "чистое" КДП за счет увеличения кластеров, но тогда картина бы превратилась в кашу, поэтому предлагаю считать, что кластер 2 это про КДП). 
В целом достаточно понятная логика: 
  • 0 кластер про обучение и развитие, 
  • 1-й кластер про подбор персонала + куча других функций, 
  • 2-й про кадровое делопроизводство;
  • 3-й - по сути про чистый подбор;
  • 4-й - это каста высших жрецов,  стоят они в сторонке - HR директора и все такое;
  • 5-й - C&B, и это ребята еще больше в сторону ушли - элита ж;
  • 6-й - hr generalist как особая категория.
Приятно, что получились относительно осмысленные кластеры, даже дженералистов выделили в отдельную категорию. Но я вот замечу, что не удалось выделить оценку персонала в отдельный кластер. Я пересмотрел кучу вариантов решений, но ни в одном из них оценка персонала не выходит на первый план, а всегда просто сопровождает какую-то другую функцию (я доводил до 17 кластеров анализ).
И посмотрите на 3-1 кластер - это проматерь богов HR - подбор персонала. Самый жирный кластер, из которого растекаются другие функции (кроме пожалуй c&b, которые произошли от других богов - не HR видимо).

Проверка

Ну и если типа мы правыв кластерном анализе оказались, то давайте посмотрим, что нас скажут зарплаты про эти кластеры. 
Какой функционал HR на самом деле бывает: кластерный анализ
Ось Y - наши кластеры;
Ось X - зарплата в тысячах рублей.
И сразу дам медианы зарплат:
  • 55 тыс рублей - Cluster 0: обучение развитие персонал оценка подбор
  • 37 000 - Cluster 1: подбор персонал адаптация оценка обучение
  • 40 000 - Cluster 2: кадровый делопроизводство рекрутинг подбор персонал
  • 45 000 - Cluster 3: подбор персонал управление отдел работа
  • 150 000 - Cluster 4: директор hr персонал управление 
  • 100 000 - Cluster 5: компенсация льгота бюджетирование hr направление
  • 70 000 - Cluster 6: hr generalist управление проект
Здесь данные, начиная с 2009 года, поэтому смотреть надо не столько  на абсолютные значения медиан, а на соотношения между кластерами. Мне эти значения кажутся разумными, но интересно узнать ваше мнение, насколько вы согласны или не согласны.

Региональные различия

Какой функционал HR на самом деле бывает: кластерный анализ
Это проценты кластеров в разрезе Москва / не Москва. % здесь по строке, т.е. по Москве / не Москве. Несмотря на схожесть, Хи квадрат значимо отличается p-value: 2.7668360173963466e-05.
И Москва и регионы значимо отличаются HR директорами (кто бы сомневался) и специалистами в области компенсаций и льгот.


Тренд

  • Здесь по оси X - годы, по оси Y - 100 % всех кластеров. 
  • Заметно, что практически последовательно растет доля рекрутеров (кластер 3). Хотя 2017 год еще не дает много данных для анализа. 
  • Падает доля кадровиков - второй кластер. Это не значит, что их меньше становится, это я не могу утверждать, я лишь говорю, что их доля падает. И это мне кажется логичным, поскольку 2009 год пришелся на кризис, и брали по большей части именно кадровиков, без них не обойтись. 
  • T&d после кризиса 2009 подросли в общей массе, но после 2014 года их стали брать меньше. Тренд, коллеги?
  • Здесь не так заметно, но есть свои пики и отливы у HR-директоров и c&b.
На этом все. Согласитесь, немаленький труд проделан, верно?
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме


5 комментариев:

  1. Очень - очень круто. Это техника работы с текстом которую мы разбирали на семинаре? Бьем текст на мешок слов и по нему делим?

    ОтветитьУдалить
    Ответы
    1. да, но только здесь еще несколько дополнительных фич
      Kmeans++ вместо просто Kmeans.
      У кластерного анализа есть проблема сходимости кластеров, типа Kmeans++ помогает преодолеть.

      кроме того, в таких случаях делают еще TFIDF - почитаете сами, я этого не давал на семинаре.

      Но в целом это оно - то, что давал на семинаре - да

      Удалить
  2. Очень интересно. А как зарплаты привязываются к кластерам? Каждому наблюдению в датасете присваивается полученный кластер?

    ОтветитьУдалить
    Ответы
    1. конечно. Вы каждому респонденту присваиваете номер кластера.
      Получаете новую переменную по сути.

      дальше дело техники

      Удалить
  3. Я тут ошибку совершил(((
    надо было слова "персонал" и "управление" в стоп слова отправить, а стормозил(((

    ОтветитьУдалить