Share |

вторник, 15 октября 2013 г.

Прогноз уровня зарплаты (кейсы регрессионного анализа)

Выкладываю в качестве кейсов две таблицы с данными. Данные взяты из курсf по статистике Statistics One, который проводят на сайте coursera.org преподаватели Princeton Universityю См подробнее мой пост MOOC - опыт нового формата обучения
Данные выкладываю ниже. Число респондентов для обоих кейсов - 200. Думаю, разберетесь, что к чему. Обращаюсь в первую очередь к участникам своего семинара Аналитика для HR. Были просьбы сделать курс по Аналитике с домашними заданиями - вот в качестве ответа даю задание. Принимаю ваши решения - файлы в формате excel на почту edvb()yandex.ru. Сам я вычисления проводил в программе R, но повторил позже в excel, поэтому вы получите идентичные результаты в excel.
Но это относится далеко не только к участникам семинара по Аналитике, но и ко всем, кому интересно применять математические методы в HR.

Кейс №1 Как зависит уровень вознаграждения от опыта работы и образования.

В таблице указан уровень вознаграждения, опыт работы в сфере, количество пройденных курсов.

Задача: определите долю дисперсии (или R^2 - R - квадрат) , объясняемой опытом работы и количеством учебных курсов, и ответьте на вопрос, какой из предикторов - опыт работы или количество курсов - имеет бОльший вес в росте зарплаты. Говоря банально, от чего больше зависит зарплата - от опыта или количества пройденных курсов.
Вот как задание прозвучало в самом курсе
Salary can be influenced by many variables. Among these, years of professional experience and total courses completed in college are critical. This week we test this hypothesis with a simulated dataset including an outcome variable, salary, and two predictors, years of experience and courses completed. Here are a few questions based on what was covered in the lectures and the lab. Have fun!
В качестве дополнительного задания предлагаю сделать следующее:
За колонкой "Зарплата" создайте колонку "Предсказанные значения" (на основе полученного уравнения регрессии) и создайте диаграмму рассеяния (точечную), где X - предсказанные значения, Y - фактические.
Получилось нечто подобное?
Рис. 1 Прогноз уровня зарплаты
Прогноз уровня зарплаты

Кейс №2. Влияние возраста и лет занятия физическими упражнениями на выносливость
В данном кейса смотрим, как влияет возраст и стаж занятий физической культурой на выносливость.
Рекомендую последовательно сделать три уравнения:
Y (выносливость) - X (возраст)
Y (выносливость) - X (годы занятия спортом)
Y (выносливость) - X1 (возраст) + X2 (годы занятия спортом)
и посмотрите на эффекты.
Удачи!

Приложение. Таблицы данных для кейсов


ID
опыт
количество курсов
Зарплата
возраст
годы занятия спортом
выносливость
1
5,8
13
67483
60
10
18
2
7,4
18
77204
40
9
36
3
6,8
23
64972
29
2
51
4
8,3
35
94143
47
10
18
5
8,1
19
78954
48
9
23
6
6,5
12
65154
42
6
30
7
8,2
29
80849
55
8
8
8
9,5
21
83860
43
19
40
9
7
27
81909
39
9
28
10
8,4
19
71335
51
14
15
11
8,6
34
93141
54
15
49
12
6,8
19
79678
52
4
27
13
6
15
67545
53
3
12
14
5,1
4
48424
68
17
43
15
9
28
88499
57
24
47
16
7,1
21
74461
30
4
21
17
6,5
23
74806
35
4
32
18
8
27
86326
56
16
33
19
9,7
15
84855
62
14
25
20
8,4
28
82127
39
13
30
21
8
24
86028
32
5
41
22
7,5
24
84386
67
8
25
23
7,4
16
75895
56
13
45
24
3,4
11
51128
47
14
33
25
7,8
20
82438
47
10
29
26
6,7
20
74326
61
11
44
27
8,5
16
73130
40
15
28
28
6,7
4
57351
49
4
20
29
6,9
16
69262
28
13
45
30
6,9
28
80015
40
6
28
31
10
28
91304
44
5
18
32
8,2
8
73767
41
18
29
33
8,7
16
79652
53
13
24
34
8,2
16
74354
67
19
55
35
5,5
8
58475
52
6
26
36
7,7
12
70020
51
10
46
37
8,3
16
70269
46
11
19
38
7,5
20
74288
44
4
25
39
7,8
20
88200
64
16
29
40
9,2
16
84158
58
14
32
41
8,1
14
73026
29
2
32
42
6,9
28
71960
44
11
12
43
10
24
83364
51
12
27
44
7,4
21
81680
51
15
33
45
7
1
66735
53
10
28
46
4,4
12
66510
44
9
34
47
7,8
20
79375
46
0
28
48
9,6
20
84222
49
14
24
49
6,9
16
73652
34
6
28
50
7,7
34
85573
64
13
25
51
8,7
35
79777
44
9
9
52
6
9
67656
37
5
35
53
8,2
31
79093
52
16
36
54
4,4
13
61448
59
12
40
55
7,8
32
92196
60
6
30
56
9,4
35
98765
44
7
14
57
6
16
70593
48
4
22
58
7,6
1
62470
56
9
31
59
9,1
11
81837
48
13
18
60
6,6
16
73379
51
16
15
61
11
32
103819
47
5
31
62
8,4
16
74529
62
14
11
63
8,6
17
83277
52
14
30
64
7,9
12
75336
45
9
9
65
7,8
8
66081
44
0
7
66
7,2
12
77266
46
14
48
67
4,9
14
53340
42
2
21
68
10,2
31
92587
46
13
43
69
6,4
20
76839
42
13
28
70
10,3
36
101071
52
11
28
71
8
8
80706
76
13
13
72
7,1
14
66481
61
11
25
73
9,3
28
82329
34
13
35
74
6,6
13
63791
62
10
13
75
6,2
16
59956
48
9
15
76
8,6
4
78497
47
15
14
77
8,2
16
69680
45
7
29
78
7,9
4
75013
40
5
24
79
6,6
16
75892
64
7
5
80
6,6
16
67926
41
3
11
81
8,6
24
68176
33
2
24
82
7
20
73378
39
10
28
83
9,6
28
89137
67
10
22
84
6,9
12
56717
50
16
35
85
9
29
82127
44
13
32
86
7,9
24
78995
60
10
8
87
9
36
87757
55
11
31
88
6,2
13
71350
39
12
18
89
8,4
24
79440
60
10
34
90
6,9
20
78205
70
14
27
91
6
1
68490
56
10
7
92
8
11
89494
40
25
32
93
8,2
27
88925
54
12
22
94
9,4
26
83403
44
15
42
95
9
33
94042
42
7
10
96
8,1
30
81702
56
12
16
97
5,5
5
59681
53
22
40
98
7,4
15
68121
55
12
28
99
7
8
60305
40
12
29
100
6,7
12
69319
69
17
41
101
7,4
7
67556
59
9
16
102
7,1
7
75505
47
10
28
103
7,5
20
64069
45
10
24
104
8,3
12
76896
62
14
17
105
7,7
7
67145
45
5
10
106
10,2
32
96207
45
12
33
107
8,6
20
83600
70
11
14
108
6,7
24
85922
44
11
32
109
7,3
24
79610
64
13
16
110
10
35
95186
57
12
19
111
6,3
20
67371
53
14
30
112
6,7
14
69460
48
8
13
113
8,8
33
92187
38
6
7
114
8,3
7
67192
53
12
28
115
6,5
16
72511
34
7
42
116
6,6
19
70286
47
9
39
117
7,1
21
71160
43
14
48
118
7,4
16
71651
62
6
22
119
8,3
20
80930
47
14
34
120
7,2
14
72872
41
20
40
121
5,4
16
68929
43
4
26
122
9,5
29
91116
34
12
10
123
7,8
20
72425
28
14
26
124
6,8
8
72845
55
12
7
125
8,1
2
73798
39
3
17
126
7,6
24
83552
48
11
23
127
7,8
9
74117
47
7
18
128
6,8
24
74548
49
6
3
129
5
6
66820
41
5
20
130
8,3
16
71109
46
1
22
131
8,3
20
75722
51
10
31
132
6,9
0
67933
62
13
31
133
9,6
6
81378
67
13
40
134
4
16
56779
41
3
22
135
8
0
78679
47
11
27
136
3,3
12
56563
48
9
31
137
8,6
23
71388
60
4
26
138
6
14
68661
58
26
40
139
5,4
24
67175
36
6
20
140
6,6
2
74317
55
11
13
141
4
12
52028
51
16
35
142
6,9
24
89119
60
11
14
143
4,5
8
55020
47
11
34
144
6,8
16
69438
63
10
35
145
7,1
16
61609
40
13
17
146
7
15
65990
53
11
31
147
8,8
24
100046
37
13
23
148
6,9
20
75209
48
13
36
149
7,9
16
59564
33
6
21
150
5,9
15
55313
44
14
31
151
6,7
0
80402
32
4
35
152
10,1
20
74777
62
12
17
153
7,6
16
71183
57
11
33
154
7,2
20
63848
62
11
32
155
6,8
25
57150
82
15
18
156
6,4
19
62098
52
23
44
157
8,8
16
87000
45
15
10
158
5,8
9
67545
55
10
22
159
4,5
16
58387
65
18
18
160
12,2
24
97431
47
7
42
161
7,3
26
80101
56
16
52
162
8,1
24
72136
58
11
33
163
9,7
0
87702
43
7
26
164
10,2
21
85637
59
4
15
165
8,6
8
67569
42
7
16
166
10,8
20
101473
27
6
42
167
8,4
16
71940
62
18
29
168
4,7
20
57906
67
9
20
169
8
16
73267
28
10
29
170
9
20
77490
57
10
17
171
10,5
3
102696
39
7
28
172
7,2
28
76270
51
7
8
173
8,3
18
80484
35
14
38
174
6,9
24
74074
61
9
37
175
6,6
16
70992
36
10
50
176
8,6
16
74583
55
15
42
177
10,6
20
84452
50
10
23
178
8,3
36
99903
60
15
24
179
7,1
21
87329
64
12
21
180
7,9
24
89495
59
8
19
181
6,3
10
60224
47
10
19
182
7,8
11
86807
68
16
30
183
8,2
6
77639
59
18
50
184
6
12
57393
44
8
34
185
7,7
10
81252
30
9
21
186
6,8
12
73095
41
11
27
187
7,9
24
92575
20
6
24
188
7,3
14
65807
63
11
16
189
9,1
3
69837
41
11
13
190
6
21
63887
60
6
21
191
5,9
21
72875
52
14
15
192
7,3
24
79824
45
10
21
193
7,3
20
66219
42
14
29
194
9,3
24
84964
48
5
40
195
8,7
3
60503
49
13
21
196
4,9
16
62424
43
12
30
197
9,3
21
92294
53
21
26
198
6,1
20
62810
52
13
20
199
6,7
21
79944
46
9
14
200
6,4
20
70427
44
17
33

Комментариев нет:

Отправить комментарий

рек