Пост про то, что сами вычисления в исследованиях занимают крайне мало место в сравнении с поиском данных. И это как не смешно, не только российская специфика. Если вы все – таки купите или попросите у меня почитать книгу MoneyBall. Как математика изменила самую популярную спортивную лигу в мире, то увидите, что в истоках феноменального результата лежал не успех гения выскочки, а долгая работа целой прослойки людей по созданию необходимой базы цифр. И также было непонимание специалистов, и сопротивление. Но если мы с вами захотим свернуть планету под названием HR на нужную нам траекторию, то в первую очередь задача не в построении «правильного» уравнения, а в постановке сбора статистик, а это задача менеджерская, а не исследовательская. Хотя изначально, безусловно, нужно хотя бы в общих чертах понимать, что ищем. И путь к логическому завершению в бейсболе составил больше 20 лет. Я надеюсь, что мне не придется столько долго ждать решений в HR сфере. Хотел бы пафосно назвать пост: хронология BigData HR в России.
Поставил задачу себе найти предиктор (-ы), которые бы объяснили такое положение городов. И задачу отчасти решил. Отчасти, потому что решил, но добился не совсем того, чего изначально хотел. Но так и бывает в исследованиях.
Первым шагом я стал искать источники статистики. И (см. пост Где брать цифры по России) нашел источник информации, где содержатся много цифр про Россию. И кстати, неплохой и понятный интерфейс, хотя можно было бы и лучше.
Из всего этого массива я выудил такие цифры (все цифры в Приложении 1):
R^2, где предиктором выступает Среднесписочная численность работников по полному кругу организаций, 2012 = 0,72
2012, потому что за 2013 год статистики нет
Напомню, что в предыдущем посте население города дало мне R^2 = 0,58. Уже радость
Тогда я взял в качестве переменной все население региона, а не только города и получил – R^2 = 0, 58. Как и с населением города. И понял, что в поисковой статистике отражается переходы не по городу, а по всему региону. Иначе невозможно было бы объяснить такую высокую поисковую активность Ханты-Мансийска, где население 90 000 человек, а в нашем списке все города свыше 500 000 человек. Поэтому объяснение лежит только в этом факте: в Югре (Ханты-Мансийском округе) есть еще такие города, как Сургут и Нижневартовск, которые и дают необходимые переходы).
И последнее, что я сделал – в качестве переменной поставил городское население
R^2 = 0,71, логично?
Готовы оспорить мои выводы?
И самое важное: эти цифры вызывают гораздо более доверия, чем прежние. И может быть это самый главный результат моего исследования.
Ну а если вы дожили до конца, то посмотрите финальные результаты рейтинга HR городов. Посмотрите на диаграмму: по оси X - предсказанные значения, по оси Y - фактические значения.
Если посмотреть показатели остатков, то видно, что Новосибирск выходит за 3 сигмы. Т.е значимо выбивается из тренда. Екатеринбург недалеко оторвался от Новосибирска. А у Краснодара и Ханты Мансийска прошу прошения за то, что отобрал призовые места.
В активе у нас
Возвращаясь к теме поста
Помните мой пост HR-рейтинг городов России? Там Краснодар занял первое место в рейтинге городов России. Тему развил в посте Кейс по измерению HR-активности. Показал на диаграмме три города: Краснодар, Екатеринбург и Ханты-Мансийск, которые явно выбивались из тренда.Поставил задачу себе найти предиктор (-ы), которые бы объяснили такое положение городов. И задачу отчасти решил. Отчасти, потому что решил, но добился не совсем того, чего изначально хотел. Но так и бывает в исследованиях.
Первым шагом я стал искать источники статистики. И (см. пост Где брать цифры по России) нашел источник информации, где содержатся много цифр про Россию. И кстати, неплохой и понятный интерфейс, хотя можно было бы и лучше.
Из всего этого массива я выудил такие цифры (все цифры в Приложении 1):
- Уровень занятости
- Уровень безработицы (по методологии МОТ)
- Долгосрочные финансовые вложения, осуществленные организацией
- Среднесписочная численность работников по полному кругу организаций, 2012
- все население
- городское население
- сельское
- Уровень занятости
- Уровень безработицы (по методологии МОТ)
- Долгосрочные финансовые вложения, осуществленные организацией
Результаты
Радость меня ждала, когда я сделал регрессионное уравнение, используя среднесписочную в качестве предиктораR^2, где предиктором выступает Среднесписочная численность работников по полному кругу организаций, 2012 = 0,72
2012, потому что за 2013 год статистики нет
Напомню, что в предыдущем посте население города дало мне R^2 = 0,58. Уже радость
Тогда я взял в качестве переменной все население региона, а не только города и получил – R^2 = 0, 58. Как и с населением города. И понял, что в поисковой статистике отражается переходы не по городу, а по всему региону. Иначе невозможно было бы объяснить такую высокую поисковую активность Ханты-Мансийска, где население 90 000 человек, а в нашем списке все города свыше 500 000 человек. Поэтому объяснение лежит только в этом факте: в Югре (Ханты-Мансийском округе) есть еще такие города, как Сургут и Нижневартовск, которые и дают необходимые переходы).
И последнее, что я сделал – в качестве переменной поставил городское население
R^2 = 0,71, логично?
Готовы оспорить мои выводы?
И самое важное: эти цифры вызывают гораздо более доверия, чем прежние. И может быть это самый главный результат моего исследования.
Ну а если вы дожили до конца, то посмотрите финальные результаты рейтинга HR городов. Посмотрите на диаграмму: по оси X - предсказанные значения, по оси Y - фактические значения.
Если посмотреть показатели остатков, то видно, что Новосибирск выходит за 3 сигмы. Т.е значимо выбивается из тренда. Екатеринбург недалеко оторвался от Новосибирска. А у Краснодара и Ханты Мансийска прошу прошения за то, что отобрал призовые места.
Новосибирск и Екатеринбург поздравляю!
И попрошу новосибирцев и екатеринбуржцев дать гипотезы, почему вы так выбиваетесь из тренда? Кстати, 25-26 ноября провожу семинар Аналитика для HR в Екатеринбурге, прошу подумать над задачей всех участников семинара.И нахрена
Мне нужна эта бессмысленная работа? Отвечу словами одного из героев Moneyball: я как тот механик, который копается в машинах, и узнает в итоге не столько строение машины, сколько ее возможности, ибоВ активе у нас
- более справедливое распределение городов в рейтинге, и Новосибирск занимает первое место, а Екатеринбург второе.
- Кроме того, мы узнали:
- как пользоваться сайтом статистики России.
- в поисковиках отражается статистика переходов с региона, а не города
- в программе R стандартизованные остатки считаются с помощью формулы rstandard()
- Excel и программа R немного по разному считают регрессию, и это в итоге отражается на тех же стандартизованных остатках, и разница, например, по Екатеринбургу составляет 0, 3 стандартных отклонения.
Приложение 1. Данные статистики
sity
|
Site
activity
|
sitizens
|
Уровень занятости
|
Уровень безра
ботицы
|
Долгосрочные
финансовые вложения
|
Средне
списочная численность
работников по полному кругу организаций, 2012
|
все
население
|
городское
население
|
сельское
|
Ekaterinburg
|
238
|
1429433
|
65,45
|
5,9
|
76
244 986
|
1
586 477
|
4
315 830
|
3
628 452
|
687
378
|
Novosib
|
172
|
1523801
|
64,15
|
5,8
|
51
912 116
|
927
927
|
2
709 461
|
2
109 991
|
599
470
|
Krasnodar
|
161
|
871194
|
60,3
|
6,45
|
19
095 108
|
1
445 698
|
5
330 181
|
2
851 570
|
2
478 611
|
HizNovgorod
|
141
|
1259921
|
66,95
|
4,25
|
11
486 394
|
1
206 332
|
3
289 841
|
2
603 581
|
686
260
|
Chelabinsk
|
119
|
1130132
|
66,05
|
6,1
|
49
333 290
|
1
119 490
|
3
485 272
|
2
865 583
|
619
689
|
Samara
|
117
|
1171598
|
67,2
|
3,5
|
14
107 583
|
1
130 824
|
3
213 289
|
2
581 102
|
632
187
|
Kazan
|
115
|
1176187
|
66,45
|
4,15
|
47
808 864
|
1
367 698
|
3
822 038
|
2
900 747
|
921
291
|
Rostov-Don
|
115
|
1103733
|
61,1
|
6,55
|
6
617 696
|
1
177 128
|
4
254 613
|
2
878 328
|
1
376 285
|
Ufa
|
102
|
1087170
|
61
|
5,95
|
109
804 432
|
1
215 135
|
4
060 957
|
2
480 222
|
1
580 735
|
Krasnoyarsk
|
85
|
1016385
|
64,5
|
5,9
|
151
465 216
|
1
056 420
|
2
846 475
|
2
181 591
|
664
884
|
Perm
|
84
|
1013890
|
62,25
|
6,55
|
66
974 784
|
867
796
|
2
634 461
|
1
978 502
|
655
959
|
Irkutsk
|
76
|
606137
|
62,15
|
8
|
33
311 541
|
797
321
|
2
422 026
|
1
925 617
|
496
409
|
Vladivostok
|
74
|
600378
|
64,05
|
7,2
|
7
995 022
|
606
623
|
1
947 263
|
1
490 636
|
456
627
|
Voronezh
|
71
|
1003638
|
60,95
|
4,65
|
11
185 502
|
714
199
|
2
330 377
|
1
545 002
|
785
375
|
Hanti-Mansiisk
|
56
|
90961
|
70,05
|
5,05
|
197
685 428
|
774
807
|
1
584 063
|
1
454 692
|
129
371
|
Saratov
|
64
|
839755
|
60,65
|
5,55
|
780
168
|
693
956
|
2
503 305
|
1
872 358
|
630
947
|
Habarovsk
|
67
|
593636
|
66,95
|
5,65
|
14
703 049
|
544
919
|
1
342 083
|
1
093 567
|
248
516
|
Volgograd
|
69
|
1018790
|
62,2
|
6,45
|
2
761 145
|
702
581
|
2
583 002
|
1
970 526
|
612
476
|
Omsk
|
62
|
1160670
|
64,75
|
7,1
|
10
424 313
|
598
200
|
1
973 985
|
1
416 571
|
557
414
|
Kemerovo
|
63
|
540095
|
62,4
|
6,75
|
52
189 449
|
951
864
|
2
742 450
|
2
345 054
|
397
396
|
Barnaul
|
51
|
629681
|
58,4
|
8,45
|
7
593 734
|
683 307
|
2 398 751
|
1 331 015
|
1
067 736
|
Tumen
|
47
|
634171
|
68,3
|
5,1
|
27
093 122
|
444
043
|
1
385 008
|
860
041
|
524
967
|
Orenburg
|
47
|
556127
|
66,1
|
5,2
|
1
025 264
|
702
356
|
2
016 086
|
1
202 748
|
813
338
|
Ulanovsk
|
48
|
615306
|
62,95
|
5,85
|
|
402
333
|
1
274 487
|
943
552
|
330
935
|
Izhevsk
|
46
|
632913
|
68,1
|
5,6
|
2
062 541
|
527
405
|
1
517 692
|
986
484
|
531
208
|
Yaroslavl
|
44
|
599169
|
64,65
|
5
|
4
685 752
|
448
940
|
1
271 672
|
1
041 481
|
230
191
|
Stavropol
|
44
|
412116
|
60,1
|
5,65
|
3
052 174
|
726
759
|
2
790 785
|
1
608 465
|
1
182 320
|
Belgorod
|
40
|
373528
|
65,2
|
4
|
20
273 946
|
512
508
|
1 540 985
|
1 026 485
|
514
500
|
Moscow
|
1673
|
11979529
|
71,35
|
1,55
|
3
122 116 814
|
4
526 726
|
11
979 529
|
11
843 643
|
135
886
|
Piter
|
483
|
5028000
|
72,3
|
1,25
|
138
226 928
|
2
031 620
|
5
028 000
|
5
028 000
|
0
|
Комментариев нет:
Отправить комментарий