.

Сделать репост в соц сети!

воскресенье, 27 октября 2013 г.

И все-таки: какой город самый HR-ый в России?

Пост про то, что сами вычисления в исследованиях занимают крайне мало место в сравнении с поиском данных. И это как не смешно, не только российская специфика. Если вы все – таки купите или попросите у меня почитать книгу MoneyBall. Как математика изменила самую популярную спортивную лигу в мире, то увидите, что в истоках феноменального результата лежал не успех гения выскочки, а долгая работа целой прослойки людей по созданию необходимой базы цифр. И также было непонимание специалистов, и сопротивление. Но если мы с вами захотим свернуть планету под названием HR на нужную нам траекторию, то в первую очередь задача не в построении «правильного» уравнения, а в постановке сбора статистик, а это задача менеджерская, а не исследовательская. Хотя изначально, безусловно, нужно хотя бы в общих чертах понимать, что ищем. И путь к логическому завершению в бейсболе составил больше 20 лет. Я надеюсь, что мне не придется столько долго ждать решений в HR сфере. Хотел бы пафосно назвать пост: хронология BigData HR в России.

Возвращаясь к теме поста

Помните мой пост HR-рейтинг городов России? Там Краснодар занял первое место в рейтинге городов России. Тему развил в посте Кейс по измерению HR-активности. Показал на диаграмме три города: Краснодар, Екатеринбург и Ханты-Мансийск, которые явно выбивались из тренда.
Поставил задачу себе найти предиктор (-ы), которые бы объяснили такое положение городов. И задачу отчасти решил. Отчасти, потому что решил, но добился не совсем того, чего изначально хотел. Но так и бывает в исследованиях.
Первым шагом я стал искать источники статистики. И (см. пост Где брать цифры по России) нашел источник информации, где содержатся много цифр про Россию. И кстати, неплохой и понятный интерфейс, хотя можно было бы и лучше.
Из всего этого массива я выудил такие цифры (все цифры в Приложении 1):
  • Уровень занятости
  • Уровень безработицы (по методологии МОТ)
  • Долгосрочные финансовые вложения, осуществленные организацией
  • Среднесписочная численность работников по полному кругу организаций, 2012
  • все население
  • городское население
  • сельское
Оцените мой бескорыстный труд и оцените те гипотезы, которые были у меня в голове. В качестве домашнего задания участникам семинара Аналитика для HR рекомендую в качестве домашнего задания сделать уравнение линейной регрессии, где Y – количество уникальных посетителей или siteactivity, а переменными выступают
  • Уровень занятости
  • Уровень безработицы (по методологии МОТ)
  • Долгосрочные финансовые вложения, осуществленные организацией

Результаты

Радость меня ждала, когда я сделал регрессионное уравнение, используя среднесписочную в качестве предиктора
R^2, где предиктором выступает Среднесписочная численность работников по полному кругу организаций, 2012 = 0,72
2012, потому что за 2013 год статистики нет
Напомню, что в предыдущем посте население города дало мне R^2 = 0,58. Уже радость
Тогда я взял в качестве переменной все население региона, а не только города и получил – R^2 = 0, 58. Как и с населением города. И понял, что в поисковой статистике отражается переходы не по городу, а по всему региону. Иначе невозможно было бы объяснить такую высокую поисковую активность Ханты-Мансийска, где население 90 000 человек, а в нашем списке все города свыше 500 000 человек. Поэтому объяснение лежит только в этом факте: в Югре (Ханты-Мансийском округе) есть еще такие города, как Сургут и Нижневартовск, которые и дают необходимые переходы).
И последнее, что я сделал – в качестве переменной поставил городское население
R^2 = 0,71, логично?
Готовы оспорить мои выводы?
И самое важное: эти цифры вызывают гораздо более доверия, чем прежние. И может быть это самый главный результат моего исследования.
Ну а если вы дожили до конца, то посмотрите финальные результаты рейтинга HR городов. Посмотрите на диаграмму: по оси X - предсказанные значения, по оси Y - фактические значения.
Если посмотреть показатели остатков, то видно, что Новосибирск выходит за 3 сигмы. Т.е значимо выбивается из тренда. Екатеринбург недалеко оторвался от Новосибирска. А у Краснодара и Ханты Мансийска прошу прошения за то, что отобрал призовые места.

Новосибирск и Екатеринбург поздравляю!

И попрошу новосибирцев и екатеринбуржцев дать гипотезы, почему вы так выбиваетесь из тренда? Кстати, 25-26 ноября провожу семинар Аналитика для HR в Екатеринбурге, прошу подумать над задачей всех участников семинара.
BigData HR в России

И нахрена

Мне нужна эта бессмысленная работа? Отвечу словами одного из героев Moneyball: я как тот механик, который копается в машинах, и узнает в итоге не столько строение машины, сколько ее возможности, ибо
В активе у нас
  • более справедливое распределение городов в рейтинге, и Новосибирск занимает первое место, а Екатеринбург второе.
  • Кроме того, мы узнали:
  • как пользоваться сайтом статистики России.
  • в поисковиках отражается статистика переходов с  региона, а не города
  • в программе R стандартизованные остатки считаются с помощью формулы rstandard()
  • Excel и программа R немного по разному считают регрессию, и это в итоге отражается на тех же стандартизованных остатках, и разница, например, по Екатеринбургу составляет 0, 3 стандартных отклонения. 
Приложение 1. Данные статистики
sity
Site
activity
sitizens
Уровень занятости
Уровень безра
ботицы
Долгосрочные финансовые вложения
Средне
списочная численность работников по полному кругу организаций, 2012
все население
городское население
сельское
Ekaterinburg
238
1429433
65,45
5,9
76 244 986
1 586 477
4 315 830
3 628 452
687 378
Novosib
172
1523801
64,15
5,8
51 912 116
927 927
2 709 461
2 109 991
599 470
Krasnodar
161
871194
60,3
6,45
19 095 108
1 445 698
5 330 181
2 851 570
2 478 611
HizNovgorod
141
1259921
66,95
4,25
11 486 394
1 206 332
3 289 841
2 603 581
686 260
Chelabinsk
119
1130132
66,05
6,1
49 333 290
1 119 490
3 485 272
2 865 583
619 689
Samara
117
1171598
67,2
3,5
14 107 583
1 130 824
3 213 289
2 581 102
632 187
Kazan
115
1176187
66,45
4,15
47 808 864
1 367 698
3 822 038
2 900 747
921 291
Rostov-Don
115
1103733
61,1
6,55
6 617 696
1 177 128
4 254 613
2 878 328
1 376 285
Ufa
102
1087170
61
5,95
109 804 432
1 215 135
4 060 957
2 480 222
1 580 735
Krasnoyarsk
85
1016385
64,5
5,9
151 465 216
1 056 420
2 846 475
2 181 591
664 884
Perm
84
1013890
62,25
6,55
66 974 784
867 796
2 634 461
1 978 502
655 959
Irkutsk
76
606137
62,15
8
33 311 541
797 321
2 422 026
1 925 617
496 409
Vladivostok
74
600378
64,05
7,2
7 995 022
606 623
1 947 263
1 490 636
456 627
Voronezh
71
1003638
60,95
4,65
11 185 502
714 199
2 330 377
1 545 002
785 375
Hanti-Mansiisk
56
90961
70,05
5,05
197 685 428
774 807
1 584 063
1 454 692
129 371
Saratov
64
839755
60,65
5,55
780 168
693 956
2 503 305
1 872 358
630 947
Habarovsk
67
593636
66,95
5,65
14 703 049
544 919
1 342 083
1 093 567
248 516
Volgograd
69
1018790
62,2
6,45
2 761 145
702 581
2 583 002
1 970 526
612 476
Omsk
62
1160670
64,75
7,1
10 424 313
598 200
1 973 985
1 416 571
557 414
Kemerovo
63
540095
62,4
6,75
52 189 449
951 864
2 742 450
2 345 054
397 396
Barnaul
51
629681
58,4
8,45
7 593 734
683 307
2 398 751
1 331 015
1 067 736
Tumen
47
634171
68,3
5,1
27 093 122
444 043
1 385 008
860 041
524 967
Orenburg
47
556127
66,1
5,2
1 025 264
702 356
2 016 086
1 202 748
813 338
Ulanovsk
48
615306
62,95
5,85

402 333
1 274 487
943 552
330 935
Izhevsk
46
632913
68,1
5,6
2 062 541
527 405
1 517 692
986 484
531 208
Yaroslavl
44
599169
64,65
5
4 685 752
448 940
1 271 672
1 041 481
230 191
Stavropol
44
412116
60,1
5,65
3 052 174
726 759
2 790 785
1 608 465
1 182 320
Belgorod
40
373528
65,2
4
20 273 946
512 508
1 540 985
1 026 485
514 500
Moscow
1673
11979529
71,35
1,55
3 122 116 814
4 526 726
11 979 529
11 843 643
135 886
Piter
483
5028000
72,3
1,25
138 226 928
2 031 620
5 028 000
5 028 000
0

Комментариев нет:

Отправить комментарий