Share |

пятница, 7 августа 2015 г.

Кейс по определению факторов текучести

Классный кейс.
Данные и компания абсолютно реальные. Не называю по понятным причинам. Компания очень известная. Даже, наверное, пафосная.
Данные под кат положил, берите и анализируйте.

Описание данных

При приеме на работу компания учитывает / собирает следующую информацию

  • age - возраст на момент приема
  • brand - наличие в опыте работы в определенных брендах (список не называю - тайна);
  • otr - наличие опыта работы в данной отрасли;
  • stag1 - стаж на предыдущем месте работы;
  • stag2 - стаж, если есть, на пред предыдущем места работы;
  • 2place - в компанию берут только при наличии уже опыта работы, поэтому выясняют, является ли компания вторым местом работы или не вторым (а третьим, четвертым и т.п..);
  • edu - профильное / не профильное образование.

И еще в кейсе есть стаж этих работников в компании - stag (он измеряется в месяцах)
задача простая: посмотреть, зависит ли стаж от указанных факторов.
Любителей поспорить предупреждаю: эти факторы могут влиять еще на что-то кроме стажа, но в данном кейсе мы по желанию руководства проверяем, что влияет. ок?
Укажите в решении, какие факторы значимы, какая сила связи, визуализируйте решение

Данные 




stag
age
brand
otr
stag1
stag2
2place
edu
0.79
29
1
1
21
16
0
1
0.33
23
1
0
33
36
0
0
0.79
24
1
0
12
36
0
1
0.20
28
1
1
2
38
0
1
15.02
22
1
0
30
0
1
1
1.38
24
1
0
30
19
0
1
2.79
32
1
1
13
25
0
1
2.92
20
1
1
16
3
0
0
0.26
23
1
0
50
0
1
1
1.61
20
1
1
2
7
0
0
1.67
23
1
0
21
11
0
1
1.70
29
0
0
21
18
0
1
1.44
31
1
0
15
4
0
1
1.02
22
1
1
21
3
0
1
1.61
25
1
1
92
0
1
1
7.97
36
0
0
28
16
0
1
2.82
23
1
0
16
10
0
1
1.38
24
1
1
4
4
0
1
1.97
24
0
0
51
0
1
1
0.72
21
0
0
9
18
0
0
1.25
27
1
0
11
44
0
1
1.38
24
1
0
76
0
1
1
2.98
28
1
1
4
26
0
1
3.44
25
1
0
28
0
1
1
2.36
23
1
1
9
63
0
1
2.59
22
1
1
9
7
0
1
0.95
28
1
0
17
3
0
1
0.79
31
1
1
33
94
0
1
0.79
23
1
1
3
3
0
0
14.39
35
1
1
99
0
0
1
0.49
20
1
1
19
0
1
0
0.95
24
1
0
25
24
0
0
1.57
29
1
1
19
28
0
1
1.15
27
1
0
40
26
0
1
1.70
31
1
0
7
14
0
1
0.89
30
1
0
75
0
0
1
4.39
26
0
0
41
15
0
1
17.90
26
1
0
30
0
1
1
0.92
29
1
0
17
8
0
1
6.69
24
1
0
63
0
1
1
1.41
27
1
1
42
19
0
1
2.20
32
1
1
19
16
0
1
3.61
21
1
0
15
6
0
0
1.61
24
1
0
68
24
0
0
2.13
28
1
0
16
0
0
1
0.30
27
1
1
16
84
0
1
1.02
29
1
1
60
0
0
1
0.79
23
1
1
4
25
0
0
15.80
21
1
0
42
0
1
0
2.66
34
1
0
44
58
0
1
0.33
27
1
1
36
4
0
1
1.84
24
1
0
63
0
1
1
4.56
24
1
1
19
4
0
0
0.46
27
1
0
6
28
0
0
1.80
25
1
1
101
0
1
0
0.33
29
1
1
29
50
0
1
2.72
25
1
0
16
39
0
1
18.36
28
1
1
14
15
0
1
6.69
36
1
1
74
0
0
1
4.20
30
1
0
32
21
0
1
2.92
34
1
1
6
6
0
1
13.80
21
1
1
36
2
0
1
33.64
27
1
0
72
0
1
1
3.08
25
1
0
12
42
0
0
6.85
24
1
0
21
0
1
1
6.43
22
1
0
10
17
0
0
6.46
43
1
1
268
0
1
1
0.59
48
1
0
84
12
0
1
2.69
31
1
1
24
8
0
0
2.20
29
1
0
60
26
0
1
2.46
27
1
0
62
0
1
1
9.93
24
1
1
18
0
0
1
3.02
24
1
0
18
60
0
0
1.67
24
1
1
26
19
0
0
1.70
26
1
1
36
10
0
1
2.66
22
1
0
36
0
1
1
9.61
36
1
1
162
0
1
1
5.02
24
1
1
6
11
0
1
1.61
24
1
1
36
48
0
1
7.77
37
1
1
230
0
1
1
2.75
33
1
1
189
0
1
1
0.23
26
1
0
12
84
0
1
3.08
25
1
0
12
24
0
1
0.39
24
1
1
4
20
0
1
5.57
36
1
1
132
0
1
1
2.82
31
1
1
12
20
0
1
1.21
30
1
1
46
9
0
1
3.08
23
1
0
40
13
0
0
1.15
27
1
0
55
7
0
1
1.93
26
1
1
78
0
1
0
0.52
30
1
1
7
12
0
1
2.46
22
1
1
39
14
0
1
0.95
26
1
1
38
87
0
1
3.05
22
0
0
26
22
0
1
2.62
27
1
1
63
0
1
0
5.11
40
0
0
88
8
0
1
1.57
25
1
1
4
28
0
1
2.00
30
0
0
104
0
1
1
0.23
25
1
1
36
0
1
1
2.20
49
1
1
26
12
0
1
2.98
29
1
1
7
5
0
1
3.21
35
1
1
97
60
0
1
3.05
26
1
1
44
28
0
1
3.44
36
1
1
170
0
1
1
0.66
39
1
1
12
0
0
1
8.46
25
1
1
23
22
0
1
10.52
33
1
0
3
108
0
1
8.46
25
1
1
4
74
0
1
2.85
26
1
0
24
27
0
1
2.36
30
1
1
151
0
1
1
0.75
23
0
0
14
0
1
0
1.90
28
1
0
13
32
0
1
2.75
30
1
1
21
8
0
1
2.39
28
1
1
8
26
0
0
5.34
26
1
0
28
17
0
1
24.10
23
1
0
18
48
0
0
3.90
33
1
0
9
42
0
1
10.75
39
0
0
47
30
0
1
4.56
23
1
1
19
4
0
1
1.93
33
1
0
26
27
0
1
2.75
36
0
0
56
0
0
1
0.85
27
1
1
41
30
0
1
1.74
35
1
0
13
12
0
0
4.23
23
1
0
64
0
1
1
0.52
27
1
0
46
6
0
1
2.00
25
1
0
23
3
0
1
2.49
26
1
0
9
108
0
1
17.34
28
1
0
26
18
0
1
3.57
40
1
0
8
4
0
1
0.23
26
1
0
4
12
0
1
14.59
24
1
0
14
16
0
1
1.61
25
1
1
12
68
0
1

8 комментариев:

  1. Эдуард, добрый день.
    Если что, извините. только начинаю углубляться в статистику.
    Кажется, значимым фактором есть только переменная 2place, хотя R-квадрат почти 0:
    Coefficients:
    Estimate Std. Error t value Pr(>|t|)
    (Intercept) 3.3841 0.4871 6.948 1.61e-10 ***
    place1 2.2549 1.0392 2.170 0.0318 *
    ---
    Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 4.943 on 130 degrees of freedom
    Multiple R-squared: 0.03495, Adjusted R-squared: 0.02753
    F-statistic: 4.708 on 1 and 130 DF, p-value: 0.03183

    Манн-Уитни и Краскел-Уолис показали значимые различия на уровне значимости = 0.01:
    Kruskal-Wallis rank sum test

    data: stag by place
    Kruskal-Wallis chi-squared = 3.2803, df = 1, p-value = 0.07012

    Wilcoxon rank sum test with continuity correction

    data: a$stag by a$place
    W = 1164, p-value = 0.07054
    alternative hypothesis: true location shift is not equal to 0

    2place =1
    Min. 1st Qu. Median Mean 3rd Qu. Max.
    0.230 1.840 2.660 5.639 6.690 33.640

    2place=0
    Min. 1st Qu. Median Mean 3rd Qu. Max.
    0.200 1.020 2.200 3.384 3.080 24.100

    ОтветитьУдалить
    Ответы
    1. да)) надеюсь, результат хоть немного заметен?

      Удалить
    2. воспринимаю как обратную связь....
      Вы стаж проверили на нормальность?

      Я даже не залезая в сами данные обращаю внимание: у вас линейная регрессия показывает значимость, а Kruskal-Wallis chi-squared = 3.2803, df = 1, p-value = 0.07012

      не задумывались, почему?)

      Удалить
  2. Стаж не нормально распределен:
    Shapiro-Wilk normality test

    data: a$stag
    W = 0.6426, p-value < 2.2e-16

    Но регрессия, кажется, довольно робастна в этих вопросах (в разных источниках по-разному, может и ошибаюсь). канешно предпосылкой для теста Фишера на значимость регрессии есть нормальность переменных, но как то так :).
    Для регрессии в принципе использовать только одну дамми переменную без количественных как то не очень.

    А Kruskal-Wallis есть тест непараметрический, а непарам. тесты "жестче" по сравнению с параметрическими.

    в какую группу?

    ОтветитьУдалить
    Ответы
    1. в группу hr аналитика на фейсбуке
      я всем участникам семинара рассылку сделал

      Удалить
    2. найдите меня на фейсбуке или напишите на почту, я дам ссылку

      Удалить