Покажу пример, как можно анализировать данные.
Данные беру отсюда Доменное имя почты кандидата как предиктор текучести персонала.
Еще раз про идею: было бы неплохо иметь возможность прогнозировать срок работы работника в компании по домену почту.
В данном примере показываю взаимосвязь между стажем работы и доменом mail.ru
Выводы делайте сами, я приведу несколько цифр. Но если интересны мои выводы, переходите сразу в вниз
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.853 3.575 9.190 4.02e-15 ***
майл 12.096 5.921 2.043 0.0436 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 29.48 on 105 degrees of freedom
Multiple R-squared: 0.03822, Adjusted R-squared: 0.02906
F-statistic: 4.173 on 1 and 105 DF, p-value: 0.04358
R^2 значим.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3126.5340 660.5288 4.733 7.00e-06 ***
гр -1.5613 0.3334 -4.684 8.55e-06 ***
майл 9.1821 5.4425 1.687 0.0946 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.92 on 104 degrees of freedom
Multiple R-squared: 0.2058, Adjusted R-squared: 0.1905
F-statistic: 13.47 on 2 and 104 DF, p-value: 6.276e-06
В этом уравнении доменное имя не значимо, но таки недалеко от значения 0, 05. Напомню также, что возраст нам не помогает прогнозировать стаж, поскольку является фактором переобучения, поэтому в финальное уравнение мы его не возьмем.
По горизонтали у нас год рождения, по вертикали - стаж, голубая метка - домен mail.ru, черная - любой другой. Заметно связь возраста и стажа, но пока не очевидна связь домена майловского и стажа
Критерий Стюдента и Манн Уитни (стаж почти нормальное распределение носит, а возраст показывает значимые различия
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3824.1362 763.8698 5.006 4.38e-06 ***
гр -1.9134 0.3855 -4.963 5.15e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 25.81 on 66 degrees of freedom
Multiple R-squared: 0.2718, Adjusted R-squared: 0.2608
F-statistic: 24.63 on 1 and 66 DF, p-value: 5.152e-06
Т.е. возраст значим
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1602.2625 1240.5597 1.292 0.205
гр -0.7867 0.6267 -1.255 0.217
Residual standard error: 28.29 on 37 degrees of freedom
Multiple R-squared: 0.04085, Adjusted R-squared: 0.01493
F-statistic: 1.576 on 1 and 37 DF, p-value: 0.2172
Данные беру отсюда Доменное имя почты кандидата как предиктор текучести персонала.
Еще раз про идею: было бы неплохо иметь возможность прогнозировать срок работы работника в компании по домену почту.
Поясняю на пальцах: разве не кажется красивой ситуация, когда рекрутер даже не видит еще кандидата, получает его резюме и на основе домена электронной почты и каких-то еще данных уже начинает прогнозировать стаж кандидата в компании?В данных у нас есть: возраст респондента, стаж на последнем месте работы и домен почты (майл, яндекс, рамблер и джимайл) - 107 респондентов
В данном примере показываю взаимосвязь между стажем работы и доменом mail.ru
Выводы делайте сами, я приведу несколько цифр. Но если интересны мои выводы, переходите сразу в вниз
Вычисления
Регрессия стаж ~ майл
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.853 3.575 9.190 4.02e-15 ***
майл 12.096 5.921 2.043 0.0436 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 29.48 on 105 degrees of freedom
Multiple R-squared: 0.03822, Adjusted R-squared: 0.02906
F-statistic: 4.173 on 1 and 105 DF, p-value: 0.04358
R^2 значим.
Регрессия стаж ~ майл + возраст
Если мы добавим возраст, то получимCoefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3126.5340 660.5288 4.733 7.00e-06 ***
гр -1.5613 0.3334 -4.684 8.55e-06 ***
майл 9.1821 5.4425 1.687 0.0946 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.92 on 104 degrees of freedom
Multiple R-squared: 0.2058, Adjusted R-squared: 0.1905
F-statistic: 13.47 on 2 and 104 DF, p-value: 6.276e-06
В этом уравнении доменное имя не значимо, но таки недалеко от значения 0, 05. Напомню также, что возраст нам не помогает прогнозировать стаж, поскольку является фактором переобучения, поэтому в финальное уравнение мы его не возьмем.
Диаграмма связи возраста и стажа
Домен и стаж
справа диаграмма распределения возраста в зависимости от стажа для респондентов, у кого доменное имя mail.ru, слева - респонденты с остальными доменами.Критерий Стюдента и Манн Уитни (стаж почти нормальное распределение носит, а возраст показывает значимые различия
Регрессия для левой картинки
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 3824.1362 763.8698 5.006 4.38e-06 ***
гр -1.9134 0.3855 -4.963 5.15e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 25.81 on 66 degrees of freedom
Multiple R-squared: 0.2718, Adjusted R-squared: 0.2608
F-statistic: 24.63 on 1 and 66 DF, p-value: 5.152e-06
Т.е. возраст значим
Регрессия для правой картинки
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1602.2625 1240.5597 1.292 0.205
гр -0.7867 0.6267 -1.255 0.217
Residual standard error: 28.29 on 37 degrees of freedom
Multiple R-squared: 0.04085, Adjusted R-squared: 0.01493
F-statistic: 1.576 on 1 and 37 DF, p-value: 0.2172
Заключение
Для того, чтобы сделать более определенные выводы, мы можем пойти двумя тропинками:- кросс-валидация. Но в нашем случае мало переменных и даже не хочу тратить время на эту процедуру (хотя еще и боязнь погрязнуть в процедуре, поэтому господа аналитики могут меня попинать, и правильно сделают)
- отбрасывание крайних значений. В нашем кейсе можно отбросить четыре крайних значения - свыше 100 месяцев (ну хотя бы чисто субъективно с т.з. бизнеса меня не очень интересуют сотрудники, которые работают свыше 100 месяцев - это более 8 лет).
В этом случае регрессия приобретает красивые цифры (обратите внимание, что Adjusted R-squared близок R^2, что говорит в пользу того, что это не переобучение)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2317.4560 506.3760 4.577 1.36e-05 ***
гр -1.1551 0.2555 -4.521 1.69e-05 ***
майл 11.9670 4.1600 2.877 0.00491 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.2 on 100 degrees of freedom
Multiple R-squared: 0.2457, Adjusted R-squared: 0.2306
F-statistic: 16.28 on 2 and 100 DF, p-value: 7.558e-07
Вопрос: будем брать на работу владельцев е майлов с mail.ru?)
Если говорить о теоретических основаниях полученных результатов, то могу предположить, что владельцы почты mail.ru более консервативны, более эмоционально ригидны, склонные менее к переменам.
Проверим гипотезу?
Это PR-реклама сервиса mail.ru Нехорошо.
ОтветитьУдалить