.

Сделать репост в соц сети!

четверг, 12 июня 2014 г.

Анализ влияния домена личной почты сотрудника на текучесть персонала

Покажу пример, как можно анализировать данные.
Данные беру отсюда Доменное имя почты кандидата как предиктор текучести персонала.
Еще раз про идею: было бы неплохо иметь возможность прогнозировать срок работы работника в компании по домену почту.
Поясняю на пальцах: разве не кажется красивой ситуация, когда рекрутер даже не видит еще кандидата, получает его резюме и на основе домена электронной почты и каких-то еще данных уже начинает прогнозировать стаж кандидата в компании?
В данных у нас есть: возраст респондента, стаж на последнем месте работы и домен почты (майл, яндекс, рамблер и джимайл) - 107 респондентов
В данном примере показываю взаимосвязь между стажем работы и доменом mail.ru
Выводы делайте сами, я приведу несколько цифр. Но если интересны мои выводы, переходите сразу в вниз


Вычисления

Регрессия стаж ~ майл

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   32.853      3.575   9.190 4.02e-15 ***
майл          12.096      5.921   2.043   0.0436 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 29.48 on 105 degrees of freedom
Multiple R-squared:  0.03822, Adjusted R-squared:  0.02906
F-statistic: 4.173 on 1 and 105 DF,  p-value: 0.04358
R^2 значим.

Регрессия стаж ~ майл + возраст

Если мы добавим возраст, то получим
Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) 3126.5340   660.5288   4.733 7.00e-06 ***
гр            -1.5613     0.3334  -4.684 8.55e-06 ***
майл           9.1821     5.4425   1.687   0.0946 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 26.92 on 104 degrees of freedom
Multiple R-squared:  0.2058, Adjusted R-squared:  0.1905
F-statistic: 13.47 on 2 and 104 DF,  p-value: 6.276e-06

В этом уравнении доменное имя не значимо, но таки недалеко от значения 0, 05. Напомню также, что возраст нам не помогает прогнозировать стаж, поскольку является фактором переобучения, поэтому в финальное уравнение мы его не возьмем.

Диаграмма связи возраста и стажа

Анализ влияния домена почты на текучесть персонала

По горизонтали у нас год рождения, по вертикали - стаж, голубая метка - домен mail.ru, черная - любой другой. Заметно связь возраста и стажа, но пока не очевидна связь домена майловского и стажа

Домен и стаж

Анализ влияния домена почты на текучесть персонала
справа диаграмма распределения возраста в зависимости от стажа для респондентов, у кого доменное имя mail.ru, слева - респонденты с остальными доменами.
Критерий Стюдента и Манн Уитни (стаж почти нормальное распределение носит, а возраст показывает значимые различия

Регрессия для левой картинки

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) 3824.1362   763.8698   5.006 4.38e-06 ***
гр            -1.9134     0.3855  -4.963 5.15e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 25.81 on 66 degrees of freedom
Multiple R-squared:  0.2718, Adjusted R-squared:  0.2608
F-statistic: 24.63 on 1 and 66 DF,  p-value: 5.152e-06

Т.е. возраст значим

Регрессия для правой картинки


Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 1602.2625  1240.5597   1.292    0.205
гр            -0.7867     0.6267  -1.255    0.217

Residual standard error: 28.29 on 37 degrees of freedom
Multiple R-squared:  0.04085, Adjusted R-squared:  0.01493
F-statistic: 1.576 on 1 and 37 DF,  p-value: 0.2172

Заключение

Для того, чтобы сделать более определенные выводы, мы можем пойти двумя тропинками:

  1. кросс-валидация. Но в нашем случае мало переменных и даже не хочу тратить время на эту процедуру (хотя еще и боязнь погрязнуть в процедуре, поэтому господа аналитики могут меня попинать, и правильно сделают)
  2. отбрасывание крайних значений. В нашем кейсе можно отбросить четыре крайних значения - свыше 100 месяцев (ну хотя бы чисто субъективно с т.з. бизнеса меня не очень интересуют сотрудники, которые работают свыше 100 месяцев - это более 8 лет). 
В этом случае регрессия приобретает красивые цифры (обратите внимание, что Adjusted R-squared близок R^2, что говорит в пользу того, что это не переобучение)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2317.4560   506.3760   4.577 1.36e-05 ***
гр            -1.1551     0.2555  -4.521 1.69e-05 ***
майл          11.9670     4.1600   2.877  0.00491 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 20.2 on 100 degrees of freedom
Multiple R-squared:  0.2457, Adjusted R-squared:  0.2306 
F-statistic: 16.28 on 2 and 100 DF,  p-value: 7.558e-07
Вопрос: будем брать на работу владельцев е майлов с mail.ru?)
Если говорить о теоретических основаниях полученных результатов, то могу предположить, что владельцы почты mail.ru более консервативны, более эмоционально ригидны, склонные менее к переменам. 
Проверим гипотезу?

1 комментарий: