После семинара "HR-Аналитика в R" я решил таки сделать шпаргалку / алгоритм, в какой ситуации какой статистический критерий использовать. При этом помимо описания алгоритма, буду использовать формулы в R.
Статистический критерий применяется для ответа на вопрос о наличии или силе связи (корреляции) между двумя переменными.
Первый и самый важный шаг в использовании статистических критериев - определить, какого типа переменные участвуют в нашем анализе.
Мы поделим переменные на два типа: количественные и категориальные.
Первый тип в R обозначается через numeric или integer, а второй через factor. Таким образом, у нас может быть всего три ситуации применения статистических критериев:
Статистический критерий применяется для ответа на вопрос о наличии или силе связи (корреляции) между двумя переменными.
Первый и самый важный шаг в использовании статистических критериев - определить, какого типа переменные участвуют в нашем анализе.
Мы поделим переменные на два типа: количественные и категориальные.
Первый тип в R обозначается через numeric или integer, а второй через factor. Таким образом, у нас может быть всего три ситуации применения статистических критериев:
- обе переменные количественные
- обе переменные категориальные
- одна переменная количественная, другая категориальная
Иакже рекомендую видео
1. Количественная - количественная
Шаг первый: выясняет распределение переменных (чаще всего с помощью теста Шапиро Уилксаshapiro.test()
Нормальное распределение
Если обе переменные показали по тесту Шапиро Уилска p-value > 0, 05 (например, если мы захотели измерить связь между тестом интеллекта и возрастом), то можем смело применять коэффициент корреляции Пирсона, который в R применяется с формулойcor.test(x, y, method = 'pearson')R может нам выдать что-то типа
Pearson's product-moment correlation data: x and y t = 4.5451, df = 79, p-value = 1.95e-05 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.2630944 0.6127261 sample estimates: cor 0.455289p-value у нас 1.95e-05, это меньше 0, 05, что говорит о наличии связи, а сила связи 0, 455289, что говорит о средней силе связи (связь считается сильной, если показатель связи > 0, 5, слабой, если < 0, 1)
Распределение отличается от нормального
Если тест Шапиро Уилска показал p-value < 0, 5 (например, мы измеряем связь между общей удовлетворенностью работы в компании и удовлетворенностью отношениями с руководителем), мы применяем коэффициент корреляции Спирменаcor.test(x, y, method = ' spearman')
Визуализация
Для визуализации связи используем точечную диаграмму.2. Категориальная категориальная
Если все переменные категориальные (например, в ситуации, когда мы хотим посмотреть связь между тем, к какой категории отнесли работников на ассессмент центре и к какой категории эффективности их отнесли по перформанс ревью), мы чаще всего сначала смотрим на распределение переменных с помощью формулыtable()Или с помощью
prop.table()Если мы хотим посмотреть распределение в %. Отвечаем на вопрос о наличии связи с помощью критерия Хи-квадрат.
chisq.test()И на вопрос о силе связи мы отвечаем с помощью критерия Крамера
library(lsr) cramersV()
Визуализация
Используем для визуализации нормированную гистограмму и / или мозаичную диаграмму.3. Количественная категориальная
Чаще всего это ситуация, когда мы сравниваем распределение количественной переменной по группам. Например, если мы хотим оценить влияние обучения и сравниваем продажи ДО и ПОСЛЕ обучения, или ели мы сравниваем продажи прошедших и не прошедших обучение. Или если мы сравниваем зарплаты по регионам.Первый шаг - определение, является ли распределение ли количественной переменной нормальным или нет. Делаем это мы с помощью уже упомянутого критерия Шапиро Уилкса, причем по каждой группе.
Нормальное распределение
Если у нас распределение нормальное, мы используем критерий Стьюдентаt.test()Критерий Стьюдента отвечает на вопрос о наличии связи или, что по сути тоже самое - о наличии значимых различий по группам, а величину эффекта можно измерить с помощью критерия Коэна
library(lsr) cohensD(x ,y)
Распределение отличается от нормального
В этом случае мы используем критерий Манн Уитни
wilcox.test()
Связанные выборки
В ситуации, когда, например, мы хотим измерить эффективность обучения продажам, мы сравниваем по сути одну группу ДО и ПОСЛЕ обучения. Анализировать мы должны прирост продаж каждого участника, поэтому у нас группы должны быть одинаковы по размеру, а Иванову ДО обучения должен соответствовать Иванов ПОСЛЕ обучения. В этом случае выборки называют связанными (зависимыми, парными). Для ответа на вопрос о наличии связи мы добавляем в критерий независимо от распределения параметр paired = TRUE.t.test(x,y, paired = TRUE) wilcox.test(x,y, paired = TRUE)
Групп больше двух
Иногда мы смотрим различия не по двум группам, а сразу по нескольким, например, зарплату по нескольким регионам. В этом случае для нормального распределения мы используем дисперсионный анализaov(y ~ x) # где y - количественная переменная, x - группыДля распределения отличного от нормального мы применяем критерий крускалла уолисса (или краскела уолисса)
kruskal.test(y ~ x)
Апостериорный анализ
Мы должны помнить, что дисперсионный анализ и крускал уолисс говорят сразу за все уровни. Т.е. если p-value > 0, 05, значимых различий нет ни в одной паре групп (для зарплат это значит, что зарплаты не имею региональных различий), если же p-value < 0, 05, это значит, что как минимум в одной группе есть значимые различия. Но тогда нам это мало что дает, если мы возьмем в анализ Москву, Санкт-Петербург, Красноярск, Волгоград, Архангельск и Самару. Совершенно очевидно, что критерий краскела уолисса покажет p-valee меньше 0, 05. Думаю, всем понятна причина - Москва. Нас будет интересовать попарные сравнение регионов. Но просто воспользоваться формулами t.test() или wilcox.test() мы не можем: за попарные сравнения нас штрафуют (если вы не в курсе, читаем учебники статистики). И мы для нормально распределенных групп используем формулу попарных сравнений из базового пакета Rpairwise.t.test(x, y)Для ненормально распределенных групп
pairwise.wilcox.test(x, y)И получаем что-то типа
Pairwise comparisons using Wilcoxon rank sum test data: df1$wage and df1$regions Москва Санкт-Петербург Новосибирская область Республика Татарстан Санкт-Петербург < 2e-16 - - - Новосибирская область < 2e-16 6.4e-15 - - Республика Татарстан < 2e-16 < 2e-16 3.6e-08 - Республика Башкортостан < 2e-16 < 2e-16 3.4e-09 0.63 P value adjustment method: bonferroniЭто матрица попарных сравнений зарплат по регионам. Обратите внимание, не имеют значимых различий только Республики Татарстан и Башкортостан.
Визуализация
Визуализируют различия по группам с помощью диаграммы плотности распределения, диаграммы боксплот - ящик с усами, скрипичной диаграммыНапомню снова, что это не лекция, а шпаргалка по статистике. Буду рад замечаниям и правкам.
__________________________________________________________
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте
Комментариев нет:
Отправить комментарий