Управление текучестью на основе данных обладает одним важным
преимуществом в сравнении с управлением другими процессами – наличием ясной
зависимой переменной. Стаж – легко измеримая объективная переменная. Для ее
измерения HR фиксирует дату приема и дату увольнения сотрудника. Все
На этом преимущества заканчиваются. Посмотрим на проблемы
управления стажем. Точнее, стоило бы назвать особенностями, а не проблемами.
- Ненормальность распределения стажа. Распределение стажа имеет длинный правый хвост и подчиняется не закону Гаусса, а экспоненциальному семейств распределений (я чаще встречал распределение Вейбулла). «По русски» это значит, что мы не можем использовать линейную регрессию для предсказания стажа. Либо мы преобразуем зависимую переменную (см. например Преобразование переменной для получения нормального распределения), либо используем непараметрическую регрессию. Либо, совсем простой вариант: отбрасываем «хвост», теряя при этом точность, конечно (аналитики меня убьют за это, но лучше сделать регрессию без хвоста, чем получить непонятно что с такими выбросами).
- Незаконченные события. Представьте, что вы начали вести статистику увольнений с новой группой входящих сотрудников. У вас принято 150 человек, в течение первых полугода уволилось 50 человек, вы уже можете создавать модель. Но… у вас осталось еще сто человек, которые продолжают работать. Мы не просто исключаем их из анализа, мы модель на 50-ти уже уволившихся делаем не совсем корректную, поскольку оставшиеся сто не просто новые наблюдения, это наблюдения будут с бОльшим стажем. Поэтому работающих сотрудников также стоило бы учитывать. Но тут возникает проблема: мы не может их взять в линейное уравнение регрессии, поскольку у них стаж открыт: если у уволившихся стаж ясно определен – дата увольнения минус дата приема, то у работающих есть только дата приема и сегодняшний день…
- Причины увольнений. У нас как минимум есть два больших кластера причин увольнений: инициатива работодателя и инициатива работника (ну или так: попросили сотрудника или он сам ушел). Понятно, что скрытые пружины у разных категорий могут быть разными, поэтому как вариант решения этой задачи – учитывать только добровольные увольнения (хотя здесь тоже можно и нужно вычленять причины: переезд, учеба, изменение семейного положения и т.п.). Можно построить логистическую регрессию с тем, чтобы определить различия в добровольной и не добровольной текучести.
- Динамичность текучести. Во время exit интервью можно снимать причины увольнений через вопросы. Например, мы задаем вопрос «давал ли вам руководитель обратную связь». Вопрос хороший, но мы получаем ответ сотрудника на его сегодняшнее состояние. Если он отвечает, что не давал, это не значит, что руководитель не давал обратной связи совсем, может быть он ее не давал только последние полгода. Или наоборот, подчиненные напишет, что руководитель давал обратную связь, потому что руководитель давал ее полтора года, а потом вдруг перестал давать… И если мы будем «снимать» только статичные показатели, то мы получим только часть картины…
Перечисленные задачи, с одной стороны, делают изучение
текучести персонала более трудной задачей, с другой, придают задаче красоту и
интерес. Представляете, какую сложную и серьезную работу проделали в Google (Как Google стал №3 в списке самых дорогих компаний Мира, используя People Analytics), чтобы так точно предсказывать увольнения