Название тупое, специально,чтобы привлечь побольше аудитории. На самом деле я хочу помимо содержательной части коснуться методологии управления текучестью персонала. И это первый пост, когда я оппонирую коллегам - HR аналитикам на достойном уровне. Если Вас не интересует методология, сразу к картинкам ниже переходите.
Я понимаю, что такие модели строят на Кагле, я также понимаю, что такой способ работы с текучестью имеет определенный смысл. Но и такой способ имеет кучу недостатков.
Одни из моделей была построена как классификация, проработает ли работник до 2 лет в компании или больше двух лет. А если он проработает 1,5 года? А если он проработает 4 года? И в первом случае 1,5 года будут приравнены к, например, результату в 3 месяца, а во втором к, например, 2,5 года. Хотя очевидно, что для бизнеса это могут быть разными историями.
Таким образом, в идеале стоило бы предсказывать не доживет ли до определенного периода, а стаж работы в компании. Но в этом месте и зарыта самая большая проблема: к сожалению для HR аналитиков, большая часть работников еще работает в компании, а следовательно, в уравнение линейной регрессии их не включишь, поскольку мы не знает, какое количество месяцев он отработает в компании.
Эта проблема решается регрессией Кокса, но регрессия Кокса в качестве аутпута выдает не стаж, а риски дожития, а это слишком не очевидная вещь, она труднопонимаема с т.з.простого человеческого разума. Вот и берутся за задачу классификации, поскольку это наиболее выгодное решение - компромисс.
Тем не менее, задача прогноза времени работы сотрудник в компании решается линейной регрессией, несмотря на незакрытый стаж, и я покажу одно из таких решений.
В качестве Y я беру лог-стаж (поскольку распределение стажа у нас далеко от нормального, мы его должны прологарифмировать), и брал я, конечно же, только волюнтарную текучесть, а в качестве предикторов я беру шкалы тестов Большая пятерка и КТО Лаборатории Гуманитарные Технологии, любезно согласившиеся предоставить тесты для научных нужд:
Тест КТО
И Большая пятерка
А вот высокий интеллект увеличивает риски расставания с компанией: думать надо меньше, коллеги. Ну и высокая тревожность немного влияет на время работы в компании.
И самое вкусное: качество модели
На тест сете два теста объясняют менее 1 % дисперсии стажа работников компании.
Таким образом, полученный пример интересен в научных целях, а не практических.
Можно возразить, что влияние тестов может быть опосредованно позицией, профессией, полом, жизненным опытом и т.п.. Согласен полностью, но тогда это говорит, что мы не сможем построить универсальный продукт по прогнозу текучести на основе тестов. А жаль.
Если у вас есть другие данные - поделитесь.
На этом все, читайте нас в фейсбуке
Методология
Оппонирую докладам hr аналитиков компании Делойт и КПМГ, которые на конференции по hr-аналитике журнала Штат представили свои модели текучести персонала. Модели были построены как классификации, доработает ли работник до определенного срока в компании или нет.Я понимаю, что такие модели строят на Кагле, я также понимаю, что такой способ работы с текучестью имеет определенный смысл. Но и такой способ имеет кучу недостатков.
Одни из моделей была построена как классификация, проработает ли работник до 2 лет в компании или больше двух лет. А если он проработает 1,5 года? А если он проработает 4 года? И в первом случае 1,5 года будут приравнены к, например, результату в 3 месяца, а во втором к, например, 2,5 года. Хотя очевидно, что для бизнеса это могут быть разными историями.
Таким образом, в идеале стоило бы предсказывать не доживет ли до определенного периода, а стаж работы в компании. Но в этом месте и зарыта самая большая проблема: к сожалению для HR аналитиков, большая часть работников еще работает в компании, а следовательно, в уравнение линейной регрессии их не включишь, поскольку мы не знает, какое количество месяцев он отработает в компании.
Эта проблема решается регрессией Кокса, но регрессия Кокса в качестве аутпута выдает не стаж, а риски дожития, а это слишком не очевидная вещь, она труднопонимаема с т.з.простого человеческого разума. Вот и берутся за задачу классификации, поскольку это наиболее выгодное решение - компромисс.
Тем не менее, задача прогноза времени работы сотрудник в компании решается линейной регрессией, несмотря на незакрытый стаж, и я покажу одно из таких решений.
Задача
Я беру данные нашего исследования (вы поучаствовали? нет? тогда не читайте дальше)В качестве Y я беру лог-стаж (поскольку распределение стажа у нас далеко от нормального, мы его должны прологарифмировать), и брал я, конечно же, только волюнтарную текучесть, а в качестве предикторов я беру шкалы тестов Большая пятерка и КТО Лаборатории Гуманитарные Технологии, любезно согласившиеся предоставить тесты для научных нужд:
Тест КТО
- Общий балл;
- Вербальный интеллект;
- Числовой интеллект;
- Эрудиция;
- Обработка информации.
И Большая пятерка
- Интроверсия - экстраверсия;
- Независимость - согласие;
- Импульсивность - самоконтроль;
- Тревожность- стабильность;
- Консерватизм- новаторство.
Результат
Итого, на первом месте в нашем хит-параде импульсивность-самоконтроль: люди с более высоким самоконтролем дольше задерживаются в компании. Что кажется логичным. И сразу на контрасте: на том же датасете обычная регрессия Кокса показывает только данную шкалу значимой с т.з. прогноза рисков работы в компании. На втором месте шкала Консерватизм - Новаторство, и новаторы у нас засиживаются в компании дольше, что вполне согласовывается с западными исследованиями Браузер скажет о кандидате то, что не скажет уровень учебной успеваемости.А вот высокий интеллект увеличивает риски расставания с компанией: думать надо меньше, коллеги. Ну и высокая тревожность немного влияет на время работы в компании.
И самое вкусное: качество модели
- По оси X - прогнозное значение в
попугаяхлогарифмированном стаже - По оси Y - реальное значение стажа.
На тест сете два теста объясняют менее 1 % дисперсии стажа работников компании.
Таким образом, полученный пример интересен в научных целях, а не практических.
Можно возразить, что влияние тестов может быть опосредованно позицией, профессией, полом, жизненным опытом и т.п.. Согласен полностью, но тогда это говорит, что мы не сможем построить универсальный продукт по прогнозу текучести на основе тестов. А жаль.
Если у вас есть другие данные - поделитесь.
Понравился пост?
и Вы захотите выразить мне благодарность, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. Или поучаствуйте в исследовании в знак благодарности.На этом все, читайте нас в фейсбуке
Доброе утро, Эдуард!
ОтветитьУдалитьА можно попросить Вас проверить важность предикторов еще с помощью random forest? интересно будут ли отличаться результаты, учитывая что линейная регрессия довольно плохо объясняет дисперсию в данной модели.
данивапрос, только скажите, какой пакет мне использовать для проверки?
Удалитья в R работаю
пакет RandomForest, строить модель можно встроенной функцией rf либо через caret. Важность предикторов вычисляется с помощью функции importance
ОтветитьУдалитьда нет, не подойдет этот пакет.
УдалитьКак Вы будете там обрабатывать незакрытый стаж?
И давайте договоримся: я общаюсь только с людьми, а не анонимами
представьтесь, дайте мне свой е майл, я вам дам датасет, а вы сделайте случайный лес на основе этих данных, оки?