Share |

четверг, 11 декабря 2014 г.

Прогноз эффективности продавцов на основе теста CPI

Хочу показать один из вариантов процедуры применения тестов для прогноза успешности работников.

Описание

Данные скинула мне Марина Петкун (по ссылке – ее профиль в Линкедине, рекомендую френдиться), и этот пример доказывает, что HR-ты таки используют анализ данных. Причем, заметьте, Марина из Новосибирска, не из первопрестольной (не хочу обидеть провинцию, а как раз наоборот: я сам из Красноярска и первую регрессионную модель предсказания успешности банковских работников сделал до Москвы).
При приеме на работу кандидаты в продажники проходили тестирование по тесту CPI, в дальнейшем замеряли их эффективность. Оценка эффективности состояла из трехбальной шкалы: 
1 – высокоэффективные, 
2 – средне эффективные, 
3 – низкоэффективные (не раскрываю содержания шкал, поскольку инфо таки коммерческая).
С другой стороны, что дали, то дали. Можно, конечно, подозревать, что если был лаг в замере результатов, то могли сказаться факторы сезонности, территории и т.п.., но к сожалению, всейчас уже нет возможности править ситуацию, поэтому что есть, то есть
Всего было протестировано 87 человек.

Процедура

В данном посте беру только одну шкалу – Lp – лидерство.
В качестве инструмента анализа я предполагаю использовать дисперсионный анализ. Сначала проводим тест Ливиня для оценки равенства дисперсий. Данные тест позволяет сделать вывод о возможности применения дисперсионного анализа.
Тест Ливиня показывает значимость 0.07952, близко к 0, 05, но мы имеет возможность применять дисперсионный анализ. В обратном случае нам бы пришлось использовать аналог дисперсионного анализа – критерий Крускала – Уоллиса.
Далее проводим сам дисперсионный анализ.
Df Sum Sq Mean Sq F value   Pr(>F)   
a            2    902   451.2    9.51 0.000189 ***
Residuals   84   3985    47.4
 Значимость 0.000189 говорит о различии между показатели по шкале LP лидерства между группами работников.
Теперь проведем так называемый post hoc анализ – попарный анализ.
  diff        lwr       upr     p adj
2-1 -5.422039  -9.318821 -1.525257 0.0037780
3-1 -9.382184 -15.023178 -3.741190 0.0004423
3-2 -3.960145  -9.287330  1.367041 0.1846782
Вы можете, кстати, сделать сравнения групп Т критерием Стьюдента, у вас получатся схожие результаты, не забываете только применять поправку Бонферрони.
Он нам показывает разницу в средних между группами (diff, т.е. например между 1 и 2 группами работников средняя разница в результатах по шкале LP составляет 5, 42 бала, и эта разница значима, а вот между второй и третьей группами (средне и низкоэффективных продавцов) значимой разницы по шкале лидерства нет). Таким образом, мы получаем по сути не три, а две группы: 1 – высокоэффективные и остальные, и используем эту шкалу для отбора высокоэффективных сейлзов (в отличие от ситуации, когда нужно отсеять низкоэффективных – эту задачу данная шкала нам не позволяет решить)

Визуализируем полученные данные

Прогноз эффективности продавцов на основе теста CPI

Границы принятия решения

Для определения границ принятия решения о кандидате я использую статистику Байеса (более подробно см. Кейс "HR-бизнес партнер" (Статистика Байеса в HR-аналитике)). Это не единственный, но, на мой взгляд, наиболее интуитивно понятный
Схема определения границ такая (для эстетов аналитики скажу, что необходимо выполнить бутстреп и делать с учетом полученных результатов, но не буду усложнять в посте):
Визуально определяем нижнюю границу – 39 балов.
Ниже этого значения у нас ответил 21 кандидат, из которых потом 1 попал в высокоэффективные, 20 во 2 и 3 группы.
Таким образом, вероятность того, что кандидат, набравший меньше 39 балов, попадет в средне или низкоэффективные, составляет 20/21 = 95 %
Среднее и медиана у нас для группы высокоэффективных равна 47 балов.
У нас 28 человек показали результаты по шкале лидерства выше или равно 47 балов. Из них высокоэффективных – 14 и остальных тоже 14, т.е. вероятность попадания в высокоэффективные.
Если у вас кандидат набрал больше или равно 50 баллов (3-й квартиль), вероятность попадания в высокоэффективные равна = 8 (кол-во высокоэффективных продавцов, набравших при тестировании бал по лидерству выше 50) / 13 (всего кандидатов, набравших при тестировании бал по лидерству выше 50) = 61, 5 %.
И для каждого бала можно устанавливать вероятность попадания в высокоэффективные или низкоэффективные
Вот такая некая итоговая таблица
 Уровни балов
эффект
остальные
Сумма по строке
выше 47
14
14
28
Больше или равно 39 и менее 47
14
24
38
Менее 39
1
20
21
сумма по колонке
29
58
87
Уровни балов можно менять, вероятности вы можете посчитать сами. Не слишком сложная инфо для понимания? 

Точный ли у нас прогноз или нет?

Менее 39 балов у нас набрал 21 человек из 87 или практически 25 % кандидатов набирают такой бал, т.е. мы каждого четвертого уже точно определяем в определенную группу.
Более или ровно 50 балов у нас набрали 13 человек или 15 %
При этом не забывайте, что у нас помимо одной шкалы есть другие шкалы и, возможно, другие факторы, которые позволяют корректировать прогноз.
Но скажу по секрету: я нарыл всего три шкалы (включая шкалу лидерства), которые дают нам что-то с т.з. прогноза. 
Вопрос к вам, читатели: сложно для понимания?

ПыСы. Логистическая регрессия


Даю одну картинку точности прогноза. Достаточно близко тому, что мы накорябали выше, верно? 
Прогноз эффективности продавцов на основе теста CPI


2 комментария:

  1. Прогностичнсть-таки весьма не дурна!

    ОтветитьУдалить
    Ответы
    1. открою секрет))
      там шкал много прогностичных, но из мультиколлинеарности мы можем в прогнозе только две шкалы использовать, они вместе дают R^2 равный 0, 31
      а это неплохо весьма

      Удалить

рек