.

Сделать репост в соц сети!

четверг, 27 августа 2015 г.

Анализ и визуализация дожития: чем HR похож на медиков





Делаю пост, чтобы потом, показывая анализ дожития, всегда ссылаться на него, чтобы каждый раз не пояснять диаграмму.
Сам способ анализа и визуализации взят из клинической медицины и обозначает ровно то, что обозначает - анализ дожития. Как долго пациент прожил.
В нашем случае - я имею ввиду HR - подобный анализ применяется (на Западе, в России такие случаи редки, кроме себя, я знаю только одну компанию, которая готова делать подобный анализ, но не уверен, что у них есть клиенты) в управлении текучестью персонала. Буквально: как долго "живет" персонал компании.
Визуализируется это таким образом
Визуализация дожития: чем HR похож на медиков

Данная диаграмма показывает (например, поскольку вложить туда можно много чего) текучесть персонала по годам.
На этой диаграмме по оси X показано время (на нашей - в месяцах), по оси Y - вероятность то, что работник "доживет" до этого момента стажа. "1" обозначает, что в момент трудоустройства вероятность ухода равна 0, далее такая вероятность снижается.
Заметно, что работники принятые в 2012 году, уходили из компании чаще: через полтора года от принятых в 2012 году осталось только 10 %, а вот из принятых в 2013- 2014 годах - почти 30 %. По 2015 году линия на отметке 6 месяцев выпрямляется, и это понятно - год еще идет.


Табличная форма анализа приведена ниже. Шкалы обозначают следующее
time - показатель времени, какой промежуток времени прошел от точки начала. У нас такая первая точка - 0, 427. Т.е. машинка говорит, что первая точка анализа - спустя 0, 427 месяцев после трудоустройства работников.
  • n.risk - количество случаев. Или в нашем случаев, количество работников. Т.е. 132 обозначает, что такое количество работников у нас было принято.
  • n.event - количество ивентов, в нашем случае - количество уволившихся за данный период, т.е. из принятых в 2015 году уволились в первые 0, 427 месяцев 2 человека (в медицине, простите за циничность - количество умерших - если мы анализируем какую - либо болезнь)
  • survival - вероятность дожития, т.е. по истечении 0, 427 месяца, у нас вероятность доработать до этого момента 0.985 или 98, 5 % от принятых в 2015 году.
  • остальные шкалы обозначают стандартную ошибку и доверительные интервалы (не буду в этом посте погружаться глубоко)
В чем дополнительный кайф такого исследования? Или преимущество. Обратите внимание, При переходе ко второму временному отрезку (0, 625), у нас количество работающих равно 125, заметили? И это должно быть странным, поскольку в предыдущем периоде у нас было 132 работника, 2 уволились, куда дели еще пятерых???
Никуда не дели, они еще работают. Т.е. на дату исследования пятеро работников отработали в компании менее 0, 625 месяца (анализ можно проводить в днях, если не нравится 0, 625 месяцев) и продолжают работать на сегодня.
Т.е. анализ дожития или анализ выживаемости позволяет принимать к анализу не только "мертвых", но и "живых".
Добавлю только, что мы можем смотреть группы не только по годам, но и по: территориям, подразделениям, уровням позиций и оплаты, гендеру и уровню образования, психологическим типам и еще много чему...
edvb@yandex.ru - на тот случай, если вы хотите у себя в компании сделать такой анализ
time
n.risk
n.event
survival
std.err
lower95% CI
upper95% CI
0.427
132
2
0.985
0.0106
0.964
1
0.625
125
2
0.969
0.0152
0.94
0.999
0.658
123
1
0.961
0.017
0.928
0.995
0.69
121
2
0.945
0.0201
0.907
0.986
0.789
115
2
0.929
0.0229
0.885
0.975
0.921
108
2
0.912
0.0255
0.863
0.963
0.986
103
1
0.903
0.0267
0.852
0.957
1.019
102
2
0.885
0.029
0.83
0.944
1.151
96
1
0.876
0.0301
0.819
0.937
1.216
93
1
0.866
0.0312
0.807
0.93
1.282
91
2
0.847
0.0333
0.785
0.915
1.315
87
1
0.838
0.0343
0.773
0.908
1.381
86
1
0.828
0.0353
0.762
0.9
1.447
82
1
0.818
0.0363
0.75
0.892
2.071
70
1
0.806
0.0376
0.736
0.883
2.268
64
1
0.794
0.0391
0.721
0.874
2.334
63
1
0.781
0.0404
0.706
0.864
2.532
57
1
0.767
0.042
0.689
0.854
2.564
56
2
0.74
0.0447
0.657
0.833
2.663
51
1
0.725
0.0461
0.64
0.822
2.762
50
2
0.696
0.0486
0.607
0.799
2.795
47
1
0.682
0.0498
0.591
0.787
2.926
40
1
0.665
0.0514
0.571
0.773
3.025
37
1
0.647
0.053
0.551
0.759
3.222
35
1
0.628
0.0547
0.53
0.745
3.518
30
1
0.607
0.0567
0.506
0.729
3.649
28
1
0.585
0.0587
0.481
0.713
3.814
23
2
0.535
0.0637
0.423
0.675
3.978
21
1
0.509
0.0655
0.396
0.655
4.373
17
1
0.479
0.0682
0.363
0.633
5.195
8
1
0.419
0.0818
0.286
0.615
6.049
5
1
0.335
0.0996
0.187
0.6


11 комментариев:

  1. Не могу разобраться с n.risk - количество принятых работников берется на одну конкретную дату в начале года или за какой-то период, например, первый месяц года?

    ОтветитьУдалить
    Ответы
    1. Алиса. приятно видеть ваш коммент)
      n.risk - это количество работников по значению фактора
      т.е. 132 - это количество работников, принятых всего в 2015 году

      но например, если бы мы с вами смотрели, например, беру навскидку, параметр - зависимость текучести от наличия туалета в офисе, то у нас было n.risk 0 - например 48, т.е. принято 48 работников в офисы, где нет туалетов, и n.risk 1 - 69 - 69 работников в офисы, где есть туалеты.
      А потом это число конечно же уменшается, мы получаем две кривые на графике 0 - для работников без туалетов и 1 - с туалетами
      И если различие значимое, одна линия стремится к 0 быстрее другой, значит отсутствие туалетов влияет на текучесть

      Ответил?

      Удалить
    2. Да, благодарю!

      Удалить
  2. Не очень понятны цифры. Где можно почитать более подробные разьяснения. Спасибо!

    ОтветитьУдалить
  3. В клиентской аналитике есть схожая модель - Buy Till you Die. Подобным же образом оценивается вероятность того, что клиент останется с компанией. Just FYI :)

    ОтветитьУдалить
  4. Эдуард, подскажите, как я понял по формуле регрессии находим вероятность увольнения сотрудников.
    Но если у нас есть не выборка, а вся совокупность уволенных, мы можем считать фактический % выбытия от всех уволенных?
    Т.е. тогда для последнего случая 6.049 survival=68% (42/132)

    ОтветитьУдалить
    Ответы
    1. что вы имеете ввиду под "вся совокупность уволенных"?

      Удалить
    2. Возможно немного спутал понятия...
      Мой ход мыслей такой, например из теории вероятности подбрасывая монетку 10 раз, у нас "орел" выпал 6 раз, т.е. можем сказать что в нашем опыте в 60% случаях выпал "орел". Но в теории знаем, если кидать очень много раз, будет 50%. Таким образом в нашей выборке 10 подкидываний в 60% случаях выпал "орел", а во всей совокупности (т.е. бесконечное количество раз) "орел" выпадет в 50% случаях.
      Теперь когда говорим про уволенных конкретной фирмы, мы знаем достаточно точное число уволенных за определенный промежуток, т.е. именно всю совокупность случаев, поэтому можем считать не теоритический %, а фактический % дожития.

      Удалить
    3. мы и так считаем на всей выборке. И получаем реальный % дожития
      Но это не позволит избежать нам доверительных интервалов.
      И главное. Нам дожитие нужно для прогноза тех, кого еще нет в выборке - вновь принятых, например.

      Не знаю, правильно ли я вас понял и правильно ли ответил

      Удалить