Хочу показать один из вариантов процедуры применения тестов
для прогноза успешности работников.
Описание
Данные скинула мне Марина Петкун (по ссылке – ее профиль в
Линкедине, рекомендую френдиться), и этот пример доказывает, что HR-ты таки используют анализ
данных. Причем, заметьте, Марина из Новосибирска, не из первопрестольной (не хочу
обидеть провинцию, а как раз наоборот: я сам из Красноярска и первую
регрессионную модель предсказания успешности банковских работников сделал до
Москвы).
При приеме на работу кандидаты в продажники проходили
тестирование по тесту CPI,
в дальнейшем замеряли их эффективность. Оценка эффективности состояла из
трехбальной шкалы:
1 – высокоэффективные,
2 – средне эффективные,
3 –
низкоэффективные (не раскрываю содержания шкал, поскольку инфо таки
коммерческая).
С другой стороны, что дали, то дали. Можно, конечно, подозревать, что если был лаг в замере результатов, то могли сказаться факторы сезонности, территории и т.п.., но к сожалению, всейчас уже нет возможности править ситуацию, поэтому что есть, то есть
Всего было протестировано 87 человек.
Процедура
В данном посте беру только одну шкалу – Lp – лидерство.
В качестве инструмента анализа я предполагаю использовать
дисперсионный анализ. Сначала проводим тест Ливиня для оценки равенства
дисперсий. Данные тест позволяет сделать вывод о возможности применения
дисперсионного анализа.
Тест Ливиня показывает значимость 0.07952, близко к 0, 05,
но мы имеет возможность применять дисперсионный анализ. В обратном случае нам
бы пришлось использовать аналог дисперсионного анализа – критерий Крускала –
Уоллиса.
Далее проводим сам дисперсионный анализ.
Df Sum Sq
Mean Sq F value Pr(>F)
a 2 902 451.2
9.51 0.000189 ***
Residuals 84 3985
47.4
Значимость 0.000189
говорит о различии между показатели по шкале LP лидерства между группами работников.
Теперь проведем так называемый post hoc анализ
– попарный анализ.
diff
lwr upr p adj
2-1
-5.422039 -9.318821 -1.525257 0.0037780
3-1 -9.382184 -15.023178 -3.741190 0.0004423
3-2 -3.960145
-9.287330 1.367041 0.1846782
Вы можете, кстати, сделать сравнения групп Т критерием
Стьюдента, у вас получатся схожие результаты, не забываете только применять
поправку Бонферрони.
Он нам показывает разницу в средних между группами (diff, т.е. например между 1 и
2 группами работников средняя разница в результатах по шкале LP составляет 5,
42 бала, и эта разница значима, а вот между второй и третьей группами (средне и
низкоэффективных продавцов) значимой разницы по шкале лидерства нет). Таким
образом, мы получаем по сути не три, а две группы: 1 – высокоэффективные и
остальные, и используем эту шкалу для отбора высокоэффективных сейлзов (в
отличие от ситуации, когда нужно отсеять низкоэффективных – эту задачу данная
шкала нам не позволяет решить)
Визуализируем полученные данные
Границы принятия решения
Для определения границ принятия решения о кандидате я использую статистику Байеса (более подробно см. Кейс "HR-бизнес партнер" (Статистика Байеса в HR-аналитике)). Это не единственный, но, на мой взгляд, наиболее интуитивно понятный
Схема определения границ такая (для эстетов аналитики скажу, что необходимо выполнить бутстреп и делать с учетом полученных результатов, но не буду усложнять в посте):
Визуально определяем нижнюю границу – 39 балов.
Ниже этого значения у нас ответил 21 кандидат, из которых
потом 1 попал в высокоэффективные, 20 во 2 и 3 группы.
Таким образом, вероятность того, что кандидат, набравший
меньше 39 балов, попадет в средне или низкоэффективные, составляет 20/21 = 95 %
Среднее и медиана у нас для группы высокоэффективных равна
47 балов.
У нас 28 человек показали результаты по шкале лидерства выше
или равно 47 балов. Из них высокоэффективных – 14 и остальных тоже 14, т.е.
вероятность попадания в высокоэффективные.
Если у вас кандидат набрал больше или равно 50 баллов (3-й
квартиль), вероятность попадания в высокоэффективные равна = 8 (кол-во
высокоэффективных продавцов, набравших при тестировании бал по лидерству выше 50)
/ 13 (всего кандидатов, набравших при тестировании бал по лидерству выше 50) =
61, 5 %.
И для каждого бала можно устанавливать вероятность попадания
в высокоэффективные или низкоэффективные
Вот такая некая итоговая таблица
Уровни балов
|
эффект
|
остальные
|
Сумма по строке
|
выше 47
|
14
|
14
|
28
|
Больше или равно 39 и менее 47
|
14
|
24
|
38
|
Менее 39
|
1
|
20
|
21
|
сумма по колонке
|
29
|
58
|
87
|
Точный ли у нас прогноз или нет?
Менее 39 балов у нас набрал 21 человек из 87 или практически
25 % кандидатов набирают такой бал, т.е. мы каждого четвертого уже точно
определяем в определенную группу.
Более или ровно 50 балов у нас набрали 13 человек или 15 %
При этом не забывайте, что у нас помимо одной шкалы есть
другие шкалы и, возможно, другие факторы, которые позволяют корректировать
прогноз.
Но скажу по секрету: я нарыл всего три шкалы (включая шкалу лидерства), которые дают нам что-то с т.з. прогноза.
Вопрос к вам, читатели: сложно для понимания?
ПыСы. Логистическая регрессия
Даю одну картинку точности прогноза. Достаточно близко тому,
что мы накорябали выше, верно?
Прогностичнсть-таки весьма не дурна!
ОтветитьУдалитьоткрою секрет))
Удалитьтам шкал много прогностичных, но из мультиколлинеарности мы можем в прогнозе только две шкалы использовать, они вместе дают R^2 равный 0, 31
а это неплохо весьма