Блог про HR-аналитику: Какой статистический критерий в какой ситуации использовать

среда, 21 ноября 2018 г.

Какой статистический критерий в какой ситуации использовать

После семинара "HR-Аналитика в R" я решил таки сделать шпаргалку / алгоритм, в какой ситуации какой статистический критерий использовать. При этом помимо описания алгоритма, буду использовать формулы в R.
Статистический критерий применяется для ответа на вопрос о наличии или силе связи (корреляции) между двумя переменными.
Первый и самый важный шаг в использовании статистических критериев - определить, какого типа переменные участвуют в нашем анализе.
Мы поделим переменные на два типа: количественные и категориальные.
Первый тип в R обозначается через numeric или integer, а второй через factor. Таким образом, у нас может быть всего три ситуации применения статистических критериев:

обе переменные количественные
обе переменные категориальные
одна переменная количественная, другая категориальная

И за этим стоит много нюансов, некоторые из которых я раскрываю. Даю формы визуализации. Рассмотрим все три ситуации (напомню, что это не лекция по статистике, а всего лишь шпаргалка / напоминалка)

Иакже рекомендую видео

1. Количественная - количественная

Шаг первый: выясняет распределение переменных (чаще всего с помощью теста Шапиро Уилкса

shapiro.test()

Нормальное распределение

Если обе переменные показали по тесту Шапиро Уилска p-value > 0, 05 (например, если мы захотели измерить связь между тестом интеллекта и возрастом), то можем смело применять коэффициент корреляции Пирсона, который в R применяется с формулой

cor.test(x, y, method = 'pearson')

R может нам выдать что-то типа

Pearson's product-moment correlation
data:  x and y
t = 4.5451, df = 79, p-value = 1.95e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
     0.2630944 0.6127261
sample estimates:
     cor
0.455289

p-value у нас 1.95e-05, это меньше 0, 05, что говорит о наличии связи, а сила связи 0, 455289, что говорит о средней силе связи (связь считается сильной, если показатель связи > 0, 5, слабой, если < 0, 1)

Распределение отличается от нормального

Если тест Шапиро Уилска показал p-value < 0, 5 (например, мы измеряем связь между общей удовлетворенностью работы в компании и удовлетворенностью отношениями с руководителем), мы применяем коэффициент корреляции Спирмена

cor.test(x, y, method = ' spearman')

Визуализация

Для визуализации связи используем точечную диаграмму.

Какой статистический критерий в какой ситуации использовать

2. Категориальная категориальная

Если все переменные категориальные (например, в ситуации, когда мы хотим посмотреть связь между тем, к какой категории отнесли работников на ассессмент центре и к какой категории эффективности их отнесли по перформанс ревью), мы чаще всего сначала смотрим на распределение переменных с помощью формулы

table()

Или с помощью

prop.table()

Если мы хотим посмотреть распределение в %. Отвечаем на вопрос о наличии связи с помощью критерия Хи-квадрат.

chisq.test()

И на вопрос о силе связи мы отвечаем с помощью критерия Крамера

library(lsr)
cramersV()

Визуализация

Используем для визуализации нормированную гистограмму и / или мозаичную диаграмму.

3. Количественная категориальная

Чаще всего это ситуация, когда мы сравниваем распределение количественной переменной по группам. Например, если мы хотим оценить влияние обучения и сравниваем продажи ДО и ПОСЛЕ обучения, или ели мы сравниваем продажи прошедших и не прошедших обучение. Или если мы сравниваем зарплаты по регионам.
Первый шаг - определение, является ли распределение ли количественной переменной нормальным или нет. Делаем это мы с помощью уже упомянутого критерия Шапиро Уилкса, причем по каждой группе.

Нормальное распределение

Если у нас распределение нормальное, мы используем критерий Стьюдента

t.test()

Критерий Стьюдента отвечает на вопрос о наличии связи или, что по сути тоже самое - о наличии значимых различий по группам, а величину эффекта можно измерить с помощью критерия Коэна

library(lsr)
cohensD(x ,y)

Распределение отличается от нормального

В этом случае мы используем критерий Манн Уитни

wilcox.test()

Связанные выборки

В ситуации, когда, например, мы хотим измерить эффективность обучения продажам, мы сравниваем по сути одну группу ДО и ПОСЛЕ обучения. Анализировать мы должны прирост продаж каждого участника, поэтому у нас группы должны быть одинаковы по размеру, а Иванову ДО обучения должен соответствовать Иванов ПОСЛЕ обучения. В этом случае выборки называют связанными (зависимыми, парными). Для ответа на вопрос о наличии связи мы добавляем в критерий независимо от распределения параметр paired = TRUE.

t.test(x,y, paired = TRUE)
wilcox.test(x,y, paired = TRUE)

Групп больше двух

Иногда мы смотрим различия не по двум группам, а сразу по нескольким, например, зарплату по нескольким регионам. В этом случае для нормального распределения мы используем дисперсионный анализ

aov(y ~ x) # где y - количественная переменная, x - группы

Для распределения отличного от нормального мы применяем критерий крускалла уолисса (или краскела уолисса)

kruskal.test(y ~ x)

Апостериорный анализ

Мы должны помнить, что дисперсионный анализ и крускал уолисс говорят сразу за все уровни. Т.е. если p-value > 0, 05, значимых различий нет ни в одной паре групп (для зарплат это значит, что зарплаты не имею региональных различий), если же p-value < 0, 05, это значит, что как минимум в одной группе есть значимые различия. Но тогда нам это мало что дает, если мы возьмем в анализ Москву, Санкт-Петербург, Красноярск, Волгоград, Архангельск и Самару. Совершенно очевидно, что критерий краскела уолисса покажет p-valee меньше 0, 05. Думаю, всем понятна причина - Москва. Нас будет интересовать попарные сравнение регионов. Но просто воспользоваться формулами t.test() или wilcox.test() мы не можем: за попарные сравнения нас штрафуют (если вы не в курсе, читаем учебники статистики). И мы для нормально распределенных групп используем формулу попарных сравнений из базового пакета R

pairwise.t.test(x, y)

Для ненормально распределенных групп

pairwise.wilcox.test(x, y)

И получаем что-то типа

Pairwise comparisons using Wilcoxon rank sum test 

data:  df1$wage and df1$regions 

                        Москва  Санкт-Петербург Новосибирская область Республика Татарстан
Санкт-Петербург         < 2e-16 -               -                     -                   
Новосибирская область   < 2e-16 6.4e-15         -                     -                   
Республика Татарстан    < 2e-16 < 2e-16         3.6e-08               -                   
Республика Башкортостан < 2e-16 < 2e-16         3.4e-09               0.63                

P value adjustment method: bonferroni

Это матрица попарных сравнений зарплат по регионам. Обратите внимание, не имеют значимых различий только Республики Татарстан и Башкортостан.

Визуализация

Визуализируют различия по группам с помощью диаграммы плотности распределения, диаграммы боксплот - ящик с усами, скрипичной диаграммы

Напомню снова, что это не лекция, а шпаргалка по статистике. Буду рад замечаниям и правкам.

__________________________________________________________

На этом все, читайте нас в фейсбуке, телеграмме и вконтакте

Блог про HR-аналитику

.

Сделать репост в соц сети!

среда, 21 ноября 2018 г.

Какой статистический критерий в какой ситуации использовать

1. Количественная - количественная

Нормальное распределение

Распределение отличается от нормального

Визуализация

2. Категориальная категориальная

Визуализация

3. Количественная категориальная

Нормальное распределение

Распределение отличается от нормального

Связанные выборки

Групп больше двух

Апостериорный анализ

Визуализация

Комментариев нет:

Отправить комментарий

.

Сделать репост в соц сети!

среда, 21 ноября 2018 г.

Какой статистический критерий в какой ситуации использовать

1. Количественная - количественная

Нормальное распределение

Распределение отличается от нормального

Визуализация

2. Категориальная категориальная

Визуализация

3. Количественная категориальная

Нормальное распределение

Распределение отличается от нормального

Связанные выборки

Групп больше двух

Апостериорный анализ

Визуализация

Комментариев нет:

Отправить комментарий

среда, 21 ноября 2018 г.