В продолжение поста Hr-рейтинг городов России
Это будет показ 1) одной фишки регрессионного анализа; б) визуализация решения; в) демонстрация того, что низкий R^2 не всегда плохо, а даже хорошо.
Обращаюсь к участникам семинара Аналитика для HR: все приведенное здесь можно сделать в excel, и ваших знаний достаточно, чтобы проделать все итерации самостоятельно
Базовая гипотеза: количество переходов на сайт определяется количеством жителей города.
Строим регрессионное уравнение, получаем R^2 = 0, 98.
Замечательно? Давайте построим такую диаграмму рассеяния предсказанных и реальных значений (см например кейс Прогноз уровня зарплаты), чтобы визуально оценить диаграмму
Чувствуете подвох? Так и напрашивается: Москва не вся Россия... Убираем из регрессионного анализа Москву с Питером и... R^2 становится равным 0, 58! Это совсем не тоже самое, что 0, 98. И становится понятным, что размер населения города не так уж жестко влияет на активность HR в сети.
Делаем новую диаграмму без Москвы и Питера.
Если не видно названия городов (можно еще кликнуть по диаграмме, но лучшего качества диаграмм я не научился создавать в R - извините), то постройте в файле колнку предсказанных значений (это считается в excel - напоминалка участникам семинара Аналитика для HR), посчитайте разницу между предсказанными и реальными значениями.
И самое главное: какие факторы, помимо населения, могут влиять на HR активность?
напоминаю, что в нашем распоряжении есть теперь база Росстата (см, Где брать цифры по России), поэтому задача становится не абстрактной, не на развитие навыков фантазии, а вполне конкретной.
ggplot(St, aes(x = predicted, y = siteactivity, label = St$sity)) + geom_smooth(method = "lm") + geom_point() + geom_text(size=3, angle = 45, hjust=1, vjust=1)
Это будет показ 1) одной фишки регрессионного анализа; б) визуализация решения; в) демонстрация того, что низкий R^2 не всегда плохо, а даже хорошо.
Обращаюсь к участникам семинара Аналитика для HR: все приведенное здесь можно сделать в excel, и ваших знаний достаточно, чтобы проделать все итерации самостоятельно
Кейс по измерению HR-активности
Для анализа мы берем таблицу с данными, см. Приложение 1, где в первой колонке указаны города, во второй - средняя количество уникальных переходов по году из города в 2013 году (брал среднее по месяцам январь - сентябрь), в третьей - население города.Базовая гипотеза: количество переходов на сайт определяется количеством жителей города.
Строим регрессионное уравнение, получаем R^2 = 0, 98.
Замечательно? Давайте построим такую диаграмму рассеяния предсказанных и реальных значений (см например кейс Прогноз уровня зарплаты), чтобы визуально оценить диаграмму
Чувствуете подвох? Так и напрашивается: Москва не вся Россия... Убираем из регрессионного анализа Москву с Питером и... R^2 становится равным 0, 58! Это совсем не тоже самое, что 0, 98. И становится понятным, что размер населения города не так уж жестко влияет на активность HR в сети.
Делаем новую диаграмму без Москвы и Питера.
Задача:
определите по диаграмме, какие города могут быть названы наиболее активными?Если не видно названия городов (можно еще кликнуть по диаграмме, но лучшего качества диаграмм я не научился создавать в R - извините), то постройте в файле колнку предсказанных значений (это считается в excel - напоминалка участникам семинара Аналитика для HR), посчитайте разницу между предсказанными и реальными значениями.
И самое главное: какие факторы, помимо населения, могут влиять на HR активность?
напоминаю, что в нашем распоряжении есть теперь база Росстата (см, Где брать цифры по России), поэтому задача становится не абстрактной, не на развитие навыков фантазии, а вполне конкретной.
ПыСы
для тех, кто работает в программе R, может быть будет интересно, что код диаграмму такойggplot(St, aes(x = predicted, y = siteactivity, label = St$sity)) + geom_smooth(method = "lm") + geom_point() + geom_text(size=3, angle = 45, hjust=1, vjust=1)
Приложение 1
sity
|
siteactivity
|
sitizens
|
Moscow
|
1673
|
11979529
|
Piter
|
483
|
5028000
|
Ekaterinburg
|
238
|
1429433
|
Novosib
|
172
|
1523801
|
Krasnodar
|
161
|
871194
|
HizNovgorod
|
141
|
1259921
|
Chelabinsk
|
119
|
1130132
|
Samara
|
117
|
1171598
|
Kazan
|
115
|
1176187
|
Rostov-Don
|
115
|
1103733
|
Ufa
|
102
|
1087170
|
Krasnoyarsk
|
85
|
1016385
|
Perm
|
84
|
1013890
|
Irkutsk
|
76
|
606137
|
Vladivostok
|
74
|
600378
|
Voronezh
|
71
|
1003638
|
Hanti-Mansiisk
|
56
|
90961
|
Saratov
|
64
|
839755
|
Habarovsk
|
67
|
593636
|
Volgograd
|
69
|
1018790
|
Omsk
|
62
|
1160670
|
Kemerovo
|
63
|
540095
|
Barnaul
|
51
|
629681
|
Tumen
|
47
|
634171
|
Orenburg
|
47
|
556127
|
Ulanovsk
|
48
|
615306
|
Izhevsk
|
46
|
632913
|
Yaroslavl
|
44
|
599169
|
Stavropol
|
44
|
412116
|
Belgorod
|
40
|
373528
|
+100
ОтветитьУдалитьСпасибо!
а че спасибо то???)) предложите что нибудь в качестве гипотез!
Удалитьобратите внимание, эти данные не верны
Удалить