Share |

пятница, 7 августа 2015 г.

Кейс по определению факторов текучести

Классный кейс.
Данные и компания абсолютно реальные. Не называю по понятным причинам. Компания очень известная. Даже, наверное, пафосная.
Данные под кат положил, берите и анализируйте.

Описание данных

При приеме на работу компания учитывает / собирает следующую информацию

  • age - возраст на момент приема
  • brand - наличие в опыте работы в определенных брендах (список не называю - тайна);
  • otr - наличие опыта работы в данной отрасли;
  • stag1 - стаж на предыдущем месте работы;
  • stag2 - стаж, если есть, на пред предыдущем места работы;
  • 2place - в компанию берут только при наличии уже опыта работы, поэтому выясняют, является ли компания вторым местом работы или не вторым (а третьим, четвертым и т.п..);
  • edu - профильное / не профильное образование.

И еще в кейсе есть стаж этих работников в компании - stag (он измеряется в месяцах)
задача простая: посмотреть, зависит ли стаж от указанных факторов.
Любителей поспорить предупреждаю: эти факторы могут влиять еще на что-то кроме стажа, но в данном кейсе мы по желанию руководства проверяем, что влияет. ок?
Укажите в решении, какие факторы значимы, какая сила связи, визуализируйте решение

Данные 




stag
age
brand
otr
stag1
stag2
2place
edu
0.79
29
1
1
21
16
0
1
0.33
23
1
0
33
36
0
0
0.79
24
1
0
12
36
0
1
0.20
28
1
1
2
38
0
1
15.02
22
1
0
30
0
1
1
1.38
24
1
0
30
19
0
1
2.79
32
1
1
13
25
0
1
2.92
20
1
1
16
3
0
0
0.26
23
1
0
50
0
1
1
1.61
20
1
1
2
7
0
0
1.67
23
1
0
21
11
0
1
1.70
29
0
0
21
18
0
1
1.44
31
1
0
15
4
0
1
1.02
22
1
1
21
3
0
1
1.61
25
1
1
92
0
1
1
7.97
36
0
0
28
16
0
1
2.82
23
1
0
16
10
0
1
1.38
24
1
1
4
4
0
1
1.97
24
0
0
51
0
1
1
0.72
21
0
0
9
18
0
0
1.25
27
1
0
11
44
0
1
1.38
24
1
0
76
0
1
1
2.98
28
1
1
4
26
0
1
3.44
25
1
0
28
0
1
1
2.36
23
1
1
9
63
0
1
2.59
22
1
1
9
7
0
1
0.95
28
1
0
17
3
0
1
0.79
31
1
1
33
94
0
1
0.79
23
1
1
3
3
0
0
14.39
35
1
1
99
0
0
1
0.49
20
1
1
19
0
1
0
0.95
24
1
0
25
24
0
0
1.57
29
1
1
19
28
0
1
1.15
27
1
0
40
26
0
1
1.70
31
1
0
7
14
0
1
0.89
30
1
0
75
0
0
1
4.39
26
0
0
41
15
0
1
17.90
26
1
0
30
0
1
1
0.92
29
1
0
17
8
0
1
6.69
24
1
0
63
0
1
1
1.41
27
1
1
42
19
0
1
2.20
32
1
1
19
16
0
1
3.61
21
1
0
15
6
0
0
1.61
24
1
0
68
24
0
0
2.13
28
1
0
16
0
0
1
0.30
27
1
1
16
84
0
1
1.02
29
1
1
60
0
0
1
0.79
23
1
1
4
25
0
0
15.80
21
1
0
42
0
1
0
2.66
34
1
0
44
58
0
1
0.33
27
1
1
36
4
0
1
1.84
24
1
0
63
0
1
1
4.56
24
1
1
19
4
0
0
0.46
27
1
0
6
28
0
0
1.80
25
1
1
101
0
1
0
0.33
29
1
1
29
50
0
1
2.72
25
1
0
16
39
0
1
18.36
28
1
1
14
15
0
1
6.69
36
1
1
74
0
0
1
4.20
30
1
0
32
21
0
1
2.92
34
1
1
6
6
0
1
13.80
21
1
1
36
2
0
1
33.64
27
1
0
72
0
1
1
3.08
25
1
0
12
42
0
0
6.85
24
1
0
21
0
1
1
6.43
22
1
0
10
17
0
0
6.46
43
1
1
268
0
1
1
0.59
48
1
0
84
12
0
1
2.69
31
1
1
24
8
0
0
2.20
29
1
0
60
26
0
1
2.46
27
1
0
62
0
1
1
9.93
24
1
1
18
0
0
1
3.02
24
1
0
18
60
0
0
1.67
24
1
1
26
19
0
0
1.70
26
1
1
36
10
0
1
2.66
22
1
0
36
0
1
1
9.61
36
1
1
162
0
1
1
5.02
24
1
1
6
11
0
1
1.61
24
1
1
36
48
0
1
7.77
37
1
1
230
0
1
1
2.75
33
1
1
189
0
1
1
0.23
26
1
0
12
84
0
1
3.08
25
1
0
12
24
0
1
0.39
24
1
1
4
20
0
1
5.57
36
1
1
132
0
1
1
2.82
31
1
1
12
20
0
1
1.21
30
1
1
46
9
0
1
3.08
23
1
0
40
13
0
0
1.15
27
1
0
55
7
0
1
1.93
26
1
1
78
0
1
0
0.52
30
1
1
7
12
0
1
2.46
22
1
1
39
14
0
1
0.95
26
1
1
38
87
0
1
3.05
22
0
0
26
22
0
1
2.62
27
1
1
63
0
1
0
5.11
40
0
0
88
8
0
1
1.57
25
1
1
4
28
0
1
2.00
30
0
0
104
0
1
1
0.23
25
1
1
36
0
1
1
2.20
49
1
1
26
12
0
1
2.98
29
1
1
7
5
0
1
3.21
35
1
1
97
60
0
1
3.05
26
1
1
44
28
0
1
3.44
36
1
1
170
0
1
1
0.66
39
1
1
12
0
0
1
8.46
25
1
1
23
22
0
1
10.52
33
1
0
3
108
0
1
8.46
25
1
1
4
74
0
1
2.85
26
1
0
24
27
0
1
2.36
30
1
1
151
0
1
1
0.75
23
0
0
14
0
1
0
1.90
28
1
0
13
32
0
1
2.75
30
1
1
21
8
0
1
2.39
28
1
1
8
26
0
0
5.34
26
1
0
28
17
0
1
24.10
23
1
0
18
48
0
0
3.90
33
1
0
9
42
0
1
10.75
39
0
0
47
30
0
1
4.56
23
1
1
19
4
0
1
1.93
33
1
0
26
27
0
1
2.75
36
0
0
56
0
0
1
0.85
27
1
1
41
30
0
1
1.74
35
1
0
13
12
0
0
4.23
23
1
0
64
0
1
1
0.52
27
1
0
46
6
0
1
2.00
25
1
0
23
3
0
1
2.49
26
1
0
9
108
0
1
17.34
28
1
0
26
18
0
1
3.57
40
1
0
8
4
0
1
0.23
26
1
0
4
12
0
1
14.59
24
1
0
14
16
0
1
1.61
25
1
1
12
68
0
1

8 комментариев:

  1. Эдуард, добрый день.
    Если что, извините. только начинаю углубляться в статистику.
    Кажется, значимым фактором есть только переменная 2place, хотя R-квадрат почти 0:
    Coefficients:
    Estimate Std. Error t value Pr(>|t|)
    (Intercept) 3.3841 0.4871 6.948 1.61e-10 ***
    place1 2.2549 1.0392 2.170 0.0318 *
    ---
    Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 4.943 on 130 degrees of freedom
    Multiple R-squared: 0.03495, Adjusted R-squared: 0.02753
    F-statistic: 4.708 on 1 and 130 DF, p-value: 0.03183

    Манн-Уитни и Краскел-Уолис показали значимые различия на уровне значимости = 0.01:
    Kruskal-Wallis rank sum test

    data: stag by place
    Kruskal-Wallis chi-squared = 3.2803, df = 1, p-value = 0.07012

    Wilcoxon rank sum test with continuity correction

    data: a$stag by a$place
    W = 1164, p-value = 0.07054
    alternative hypothesis: true location shift is not equal to 0

    2place =1
    Min. 1st Qu. Median Mean 3rd Qu. Max.
    0.230 1.840 2.660 5.639 6.690 33.640

    2place=0
    Min. 1st Qu. Median Mean 3rd Qu. Max.
    0.200 1.020 2.200 3.384 3.080 24.100

    ОтветитьУдалить
    Ответы
    1. вы были у меня на семинаре?

      Удалить
    2. да)) надеюсь, результат хоть немного заметен?

      Удалить
    3. воспринимаю как обратную связь....
      Вы стаж проверили на нормальность?

      Я даже не залезая в сами данные обращаю внимание: у вас линейная регрессия показывает значимость, а Kruskal-Wallis chi-squared = 3.2803, df = 1, p-value = 0.07012

      не задумывались, почему?)

      Удалить
    4. а в группу что не вступили?

      Удалить
  2. Стаж не нормально распределен:
    Shapiro-Wilk normality test

    data: a$stag
    W = 0.6426, p-value < 2.2e-16

    Но регрессия, кажется, довольно робастна в этих вопросах (в разных источниках по-разному, может и ошибаюсь). канешно предпосылкой для теста Фишера на значимость регрессии есть нормальность переменных, но как то так :).
    Для регрессии в принципе использовать только одну дамми переменную без количественных как то не очень.

    А Kruskal-Wallis есть тест непараметрический, а непарам. тесты "жестче" по сравнению с параметрическими.

    в какую группу?

    ОтветитьУдалить
    Ответы
    1. в группу hr аналитика на фейсбуке
      я всем участникам семинара рассылку сделал

      Удалить
    2. найдите меня на фейсбуке или напишите на почту, я дам ссылку

      Удалить

Популярные сообщения