Используем уже знакомый набор данных. Напомню, что у нас есть выборка из 87 сотрудников, из которых 12 признаны неэффективными, 29 - "звездами", остальные промежду этими группами. Все они при приеме на работу проходили тест CPI (Калифорнийский психологический опросник (California Psychological Inventory))
зеленые треугольнички - наши звезды, красные точки - все остальные.
В прошлых постах я показывал, как можно отсеивать неэффективных (см. посты
, сегодня - как отбирать звезд.
Фишка в том, что у нас просто куча шкал коррелирует с звездностью / не звездностью работников. Это такие шкалы: Sy, Sp, Lp, Ie, Do, In, Em, Wb, Ac, Fx, F.m, Mp, Tm.
Корреляция есть, но важно показать не просто наличие связи, а конкретную инструкцию по тому, как отбирать звезд от не звезд.
Инструкция
Сначала применяем метод дерева решений. В нашем случае инструкция выглядит таким образом
Шаг 1. Если показывает по шкале Sp менее 56 баллов, уже не "звезда".
Шаг 2. Если показывает по шкале Sp более или равно 56 баллов, то смотрим шкалу Fx
Шаг 3. Если показывает по шкале Fx менее 50 баллов, значит "звезда"
Точность модели
Нам также необходимо оценить точность модели, т.е. сказать бизнесу вероятность ошибки нашего прогноза.
зеленые треугольнички - наши звезды, красные точки - все остальные.
По графику мы видим, что инструкция близка тому, что мы видим на картинке, во - вторых, попадание не 100 %.