Share |

пятница, 25 октября 2013 г.

Кейс по измерению HR-активности

В продолжение поста Hr-рейтинг городов России
Это будет показ 1) одной фишки регрессионного анализа; б) визуализация решения; в) демонстрация того, что низкий R^2 не всегда плохо, а даже хорошо.
Обращаюсь к участникам семинара Аналитика для HR: все приведенное здесь можно сделать в excel, и ваших знаний достаточно, чтобы проделать все итерации самостоятельно

Кейс по измерению HR-активности

Для анализа мы берем таблицу с данными, см. Приложение 1, где в первой колонке указаны города, во второй - средняя количество уникальных переходов по году из города в 2013 году (брал среднее по месяцам январь - сентябрь), в третьей - население города.
Базовая гипотеза: количество переходов на сайт определяется количеством жителей города.
Строим регрессионное уравнение, получаем R^2 = 0, 98.
Замечательно? Давайте построим такую диаграмму рассеяния предсказанных и реальных значений (см например кейс Прогноз уровня зарплаты), чтобы визуально оценить диаграмму
Кейс по измерению HR-активности

Чувствуете подвох? Так и напрашивается: Москва не вся Россия... Убираем из регрессионного анализа Москву с Питером и... R^2 становится равным 0, 58! Это совсем не тоже самое, что 0, 98. И становится понятным, что размер населения города не так уж жестко влияет на активность HR в сети.
Делаем новую диаграмму без Москвы и Питера.

Задача: 

определите по диаграмме, какие города могут быть названы наиболее активными?
Если не видно названия городов (можно еще кликнуть по диаграмме, но лучшего качества диаграмм я не научился создавать в R - извините), то постройте в файле колнку предсказанных значений (это считается в excel - напоминалка участникам семинара Аналитика для HR), посчитайте разницу между предсказанными и реальными значениями.
И самое главное: какие факторы, помимо населения, могут влиять на HR активность?
напоминаю, что в нашем распоряжении есть теперь база Росстата (см, Где брать цифры по России), поэтому задача становится не абстрактной, не на развитие навыков фантазии, а вполне конкретной.
Кейс по измерению HR-активности

ПыСы

для тех, кто работает в программе R, может быть будет интересно, что код диаграмму такой
ggplot(St, aes(x = predicted, y = siteactivity, label = St$sity)) + geom_smooth(method = "lm") +   geom_point() + geom_text(size=3, angle = 45, hjust=1, vjust=1)

Приложение 1

sity
siteactivity
sitizens
Moscow
1673
11979529
Piter
483
5028000
Ekaterinburg
238
1429433
Novosib
172
1523801
Krasnodar
161
871194
HizNovgorod
141
1259921
Chelabinsk
119
1130132
Samara
117
1171598
Kazan
115
1176187
Rostov-Don
115
1103733
Ufa
102
1087170
Krasnoyarsk
85
1016385
Perm
84
1013890
Irkutsk
76
606137
Vladivostok
74
600378
Voronezh
71
1003638
Hanti-Mansiisk
56
90961
Saratov
64
839755
Habarovsk
67
593636
Volgograd
69
1018790
Omsk
62
1160670
Kemerovo
63
540095
Barnaul
51
629681
Tumen
47
634171
Orenburg
47
556127
Ulanovsk
48
615306
Izhevsk
46
632913
Yaroslavl
44
599169
Stavropol
44
412116
Belgorod
40
373528

3 комментария:

  1. Ответы
    1. а че спасибо то???)) предложите что нибудь в качестве гипотез!

      Удалить
    2. обратите внимание, эти данные не верны

      Удалить