.

Сделать репост в соц сети!

среда, 21 ноября 2018 г.

Какой статистический критерий в какой ситуации использовать



После семинара "HR-Аналитика в R" я решил таки сделать шпаргалку / алгоритм, в какой ситуации какой статистический критерий использовать. При этом помимо описания алгоритма, буду использовать формулы в R.
Статистический критерий применяется для ответа на вопрос о наличии или силе связи (корреляции) между двумя переменными.
Первый и самый важный шаг в использовании статистических критериев - определить, какого типа переменные участвуют в нашем анализе.
Мы поделим переменные на два типа: количественные и категориальные.
Первый тип в R обозначается через numeric или integer, а второй через factor. Таким образом, у нас может быть всего три ситуации применения статистических критериев:
  1. обе переменные количественные
  2. обе переменные категориальные
  3. одна переменная количественная, другая категориальная
И за этим стоит много нюансов, некоторые из которых я раскрываю. Даю формы визуализации.  Рассмотрим все три ситуации (напомню, что это не лекция по статистике, а всего лишь шпаргалка / напоминалка)
Иакже рекомендую видео



1. Количественная - количественная

Шаг первый: выясняет распределение переменных (чаще всего  с помощью теста Шапиро Уилкса
shapiro.test()

Нормальное распределение

Если обе переменные показали по тесту Шапиро Уилска p-value > 0, 05 (например, если мы захотели измерить связь между тестом интеллекта и возрастом), то можем смело применять коэффициент корреляции Пирсона, который в R применяется с формулой
cor.test(x, y, method = 'pearson')
R может нам выдать что-то типа
Pearson's product-moment correlation
data:  x and y
t = 4.5451, df = 79, p-value = 1.95e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
     0.2630944 0.6127261
sample estimates:
     cor
0.455289
p-value у нас 1.95e-05, это меньше 0, 05, что говорит о наличии связи, а сила связи 0, 455289, что говорит о средней силе связи (связь считается сильной, если показатель связи > 0, 5, слабой, если < 0, 1)

Распределение отличается от нормального

Если тест Шапиро Уилска показал p-value < 0, 5 (например, мы измеряем связь между общей удовлетворенностью работы в компании и удовлетворенностью отношениями с руководителем), мы применяем коэффициент корреляции Спирмена
cor.test(x, y, method = ' spearman')

Визуализация

Для визуализации связи используем точечную диаграмму.
Какой статистический критерий в какой ситуации использовать



2. Категориальная категориальная

Если все переменные категориальные (например, в ситуации, когда мы хотим посмотреть связь между тем, к какой категории отнесли работников на ассессмент центре и к какой категории эффективности их отнесли по перформанс ревью), мы чаще всего сначала смотрим на распределение переменных с помощью формулы
table()
Или с помощью
prop.table()
Если мы хотим посмотреть распределение в %. Отвечаем на вопрос о наличии связи с помощью критерия Хи-квадрат.
chisq.test() 
И на вопрос о силе связи мы отвечаем с помощью критерия Крамера
library(lsr)
cramersV() 

Визуализация

Используем для визуализации нормированную гистограмму и / или мозаичную диаграмму.
Какой статистический критерий в какой ситуации использовать



3. Количественная категориальная 

Чаще всего это ситуация, когда мы сравниваем распределение количественной переменной по группам. Например, если мы хотим оценить влияние обучения и сравниваем продажи ДО и ПОСЛЕ обучения, или ели мы сравниваем продажи прошедших и не прошедших обучение. Или если мы сравниваем зарплаты по регионам.
Первый шаг - определение, является ли распределение ли количественной переменной нормальным или нет. Делаем это мы с помощью уже упомянутого критерия Шапиро Уилкса, причем по каждой группе.

Нормальное распределение

Если у нас распределение нормальное, мы используем критерий Стьюдента
t.test()
Критерий Стьюдента отвечает на вопрос о наличии связи или, что по сути тоже самое - о наличии значимых различий по группам, а величину эффекта можно измерить с помощью критерия Коэна
library(lsr)
cohensD(x ,y)

Распределение отличается от нормального

В этом случае мы используем критерий Манн Уитни
wilcox.test() 

Связанные выборки

В ситуации, когда, например, мы хотим измерить эффективность обучения продажам, мы сравниваем по сути одну группу ДО и ПОСЛЕ обучения. Анализировать мы должны прирост продаж каждого участника, поэтому у нас группы должны быть одинаковы по размеру, а Иванову ДО обучения должен соответствовать Иванов ПОСЛЕ обучения. В этом случае выборки называют связанными (зависимыми, парными). Для ответа на вопрос о наличии связи мы добавляем в критерий независимо от распределения параметр paired = TRUE.
t.test(x,y, paired = TRUE)
wilcox.test(x,y, paired = TRUE)

Групп больше двух

Иногда мы смотрим различия не по двум группам, а сразу по нескольким, например, зарплату по нескольким регионам. В этом случае для нормального распределения мы используем дисперсионный анализ
aov(y ~ x) # где y - количественная переменная, x - группы
Для распределения отличного от нормального мы применяем критерий крускалла уолисса (или краскела уолисса)
kruskal.test(y ~ x)



Апостериорный анализ

Мы должны помнить, что дисперсионный анализ и крускал уолисс говорят сразу за все уровни. Т.е. если p-value > 0, 05, значимых различий нет ни в одной паре групп (для зарплат это значит, что зарплаты не имею региональных различий), если же p-value < 0, 05, это значит, что как минимум в одной группе есть значимые различия. Но тогда нам это мало что дает, если мы возьмем в анализ Москву, Санкт-Петербург, Красноярск, Волгоград, Архангельск и Самару. Совершенно очевидно, что критерий краскела уолисса покажет p-valee меньше 0, 05. Думаю, всем понятна причина - Москва. Нас будет интересовать попарные сравнение регионов. Но просто воспользоваться формулами t.test() или wilcox.test() мы не можем: за попарные сравнения нас штрафуют (если вы не в курсе, читаем учебники статистики). И мы для нормально распределенных групп используем формулу попарных сравнений из базового пакета R
pairwise.t.test(x, y)
Для ненормально распределенных групп
pairwise.wilcox.test(x, y) 
И получаем что-то типа
Pairwise comparisons using Wilcoxon rank sum test 

data:  df1$wage and df1$regions 

                        Москва  Санкт-Петербург Новосибирская область Республика Татарстан
Санкт-Петербург         < 2e-16 -               -                     -                   
Новосибирская область   < 2e-16 6.4e-15         -                     -                   
Республика Татарстан    < 2e-16 < 2e-16         3.6e-08               -                   
Республика Башкортостан < 2e-16 < 2e-16         3.4e-09               0.63                

P value adjustment method: bonferroni 
Это матрица попарных сравнений зарплат по регионам. Обратите внимание, не имеют значимых различий только Республики Татарстан и Башкортостан.

Визуализация

Визуализируют различия по группам с помощью диаграммы плотности распределения, диаграммы боксплот - ящик с усами, скрипичной диаграммы
Какой статистический критерий в какой ситуации использовать

Напомню снова, что это не лекция, а шпаргалка по статистике. Буду рад замечаниям и правкам.



__________________________________________________________

На этом все, читайте нас в фейсбуке, телеграмме и вконтакте




Комментариев нет:

Отправить комментарий