Блог про HR-аналитику: Прогнозирование пола по результатам тестирования

понедельник, 11 декабря 2017 г.

Прогнозирование пола по результатам тестирования

Идея поста принадлежит Эдуарду Бабушкину. Для меня пост носит обучающий характер в работе с непонятым до конца mlr, именно поэтому намеренно работал при решении с ним. От коллег ожидаю обратной связи и ответы на вопросы в конце поста.

В данном посте решается вопрос прогнозирования пола на основе данных тестирования. Датасет взят из многолетнего исследования Ключевые факторы эффективности и текучести персонала Эдуарда Бабушкина.

Гипотеза: интеллект и профиль черт связан с полом респондента.

Очищенный набор данных содержит 1206 наблюдений с результатами тестов КТО и Big5.

Для дальнейшей работы переменные перекодированы, в скобках курсивом даны оригинальные наименования:

'data.frame': 1206 obs. of 11 variables:

$ gender (Ваш пол) : Factor w/ 2 levels "Ж","М"

$ iq (Ш1. Общий балл) : num

$ verb (Ш2. Вербальный IQ) : num

$ erud (Ш3. Эрудиция) : num

$ num (Ш4. Числовой IQ) : num

$ info (Ш5.Обработка информации) : num

$ extr (Ш6. Экстраверсия-интроверсия) : num

$ auto (Ш7. Независимость-согласие) : num

$ impuls (Ш8. Импульсивность-самоконтроль) : num

$ stab (Ш9. Тревожность-стабильность) : num

$ conserv (Ш10. Консерватизм-новаторство): num

Данные подвержены препроцессингу (преобразование Бокса-Кокса, z-нормирование), распределение по полу не сбалансированно, количество женщин в наборе данных больше в 2.8 раз:

  Ж   М

888 318

Представляется возможным предварительно оценить наличие связей с помощью диаграммы боксплот. Наибольшая разница в медианных значениях в зависимости от пола наблюдается по шкале «Тревожность-стабильность», на меньшем уровне по шкалам «Экстраверсия-интроверсия» и «Общий балл IQ».

Кросс-валидация со следующими параметрами: folds = 5L, reps = 10L, maxit = 50L.

Площадь под кривой для построенной модели в зависимости от натренированных параметров:

Параметры модели

auc

0.7799367

Верхние параметры

auc

0.7604274

Нижние параметры

auc

0.7732489

ROC-кривая

График Precision-Recall

В соответствии с полученными графиками вероятность наступления события установлена на уровне 0.3, тогда

FALSE TRUE

Ж 220 46

М 36 59

Точность модели: 56%.

Наиболее важным фактором оказывается фактор «Тревожность-стабильность», на втором месте IQ.

Данные проверяются на новом респонденте:

newdudesclass=data.frame(stab=9.5, iq=9, impuls=4.1, extr=3.2, auto=4.7, erud=2, num=3, conserv=4, verb=2, info=3)

Prediction: 1 observations

predict.type: prob

threshold: Ж=0.50,М=0.50

time: 0.01

     prob.Ж    prob.М response

1 0.5934066 0.4065934        Ж

Вывод: в половине случаев, построенная модель позволяет спрогнозировать пол респондента по результатам тестов КТО и Big5.

Вопросы:

1. Как узнать коэффициенты статистической значимости для предикторов в mlr?

2. Нужно ли строить модель только для того варианта параметров (over, under), в котором наблюдается наибольший баланс?

3. Прогноз на новом кандидате даёт response= «Ж» при prob=0.4, но при расчётах вероятность наступления события была установлена на 0.3, можем ли мы считать в таком случае истинным для нас response= «М»?

32 комментария:

Edward11 декабря 2017 г. в 09:22
давайте с базы начнем)
какой алгоритм использовали?
ОтветитьУдалить
Ответы
Unknown11 декабря 2017 г. в 11:22
Хотелось бы посмотреть на корреляционную матрицу. Также, учитывая специфику предикторов и датасета в целом, скорее всего randomforest не будет здесь хорошо себя показывать. Рекомендую попробовать алгоритмы glm, gam и xgb, и сравнить результаты.
И не забывать за балансировку данных.
ОтветитьУдалить
Ответы
Edward12 декабря 2017 г. в 09:46
Александр, а у вас up и under sampling посчитан для train или test set?
ОтветитьУдалить
Ответы
Unknown13 декабря 2017 г. в 09:12
Коллеги вообще всем спасибо за обратную связь.
ОтветитьУдалить
Ответы

Добавить комментарий

.

Сделать репост в соц сети!

понедельник, 11 декабря 2017 г.

Прогнозирование пола по результатам тестирования

32 комментария:

понедельник, 11 декабря 2017 г.