Share |

среда, 22 февраля 2017 г.

Normal Test and Power Calculation

Введение

Две статьи тому назад я писал о том, как при помощи HR аналитики можно оценить эффективность учебного мероприятия
Тогда коллеги-аналитики справедливо сделали замечание о том, а были ли проведены тесты на нормальность распределения?
А другие коллеги, тоже из среды умножающих в уме 5-значные цифры, поинтересовались расчетом мощности t-теста, поскольку выборка в итоговом расчете была маловата.
Справедливо и первое и второе замечание.
В предыдущем материале, все эти расчеты остались за кадром. В данной статье я пролью свет на выше озвученные комментарии.

Проверка на нормальность распределения

Для применения многих статистических методов, нормальность распределения исследуемых переменных, является важным условием. Т.е. нам нужно ответить на вопрос: а подчиняются ли закону нормального распределения наши количественные переменные, которые мы хотим исследовать?
Для решения этой задачи, зачастую, используют два взаимодополняющих подхода:
  • Графический метод
  • Формальные тесты

Графический метод

Для того чтобы определить является ли наше распределение нормальным, следует построить график квантилей (Q-Q plots).

Как читать такие графики?
Q-Q plots изображают квантили двух распределений.
По оси Y изображены эмпирические данные (т.е. наши реальные исследуемые данные), а по оси Х – теоретически ожидаемого нормального распределения.
В идеальной картинке, т.е., когда наше распределение нормальное, все точки должны выстроиться вдоль прямой красной линии.
Интерпретация таких графиков требует определенного опыта и навыка. Небольшое количество наблюдений (как в рассматриваемом примере) может не всегда образовывать четкую прямую линию.
Сейчас можно обратить внимание на два отклонения в верхнем правом углу, как на первом, так и на втором графике.
Давайте нарисуем еще один похожий график:
На данных Q-Q plots графиках пунктирными линиями изображен 95% доверительный интервал, который ограничивает допустимые отклонения от нормального распределения.
Мы снова можем наблюдать, что по два наблюдения на каждом графике выходят за данные границы.

Формальные тесты

Графический метод оценки нормальности распределения дает первое представление об исследуемых данных. Для того чтобы принять окончательное решение о нормальности распределения, следует применить формальные тесты.
Существует целый набор тестов специально разработанных для этого задачи:
  • тест Шапиро-Уилка
  • тест Андерсона-Дарлинга
  • тест Крамера фон Мизеса
  • тест Лиллиефорса
Нулевая гипотеза в ходе применения данных тестов будет следующей: Наша выборка происходит из генеральной совокупности, которая имеет нормально распределение. Т.е. если мы получили в ходе применения теста \(p > 0.05\), тогда нулевая гипотеза не отвергается, и мы принимаем решение, что наше распределение нормальное.
Давайте применим все выше перечисленные тесты для наших выборок.
Формальные тесты на нормальность распределения (р-значение)
Переменная “до” Переменная “после”
Shapiro-Wilk normality test 0.600 0.148
Anderson-Darling normality test 0.601 0.163
Cramer-von Mises normality test 0.639 0.200
Lilliefors (Kolmogorov-Smirnov) normality test 0.424 0.459
Как видим из результатов примененных тестов на нормальность распределения, мы не можем отклонить нулевую гипотезу (\(H_0\)) о том, что наша выборка происходит из генеральной совокупности с нормальным распределением.

Расчет статистической мощности t-критерия Стьюдента

Мощность критерия – это его способность найти различия, которые мы ищем там, где они действительно существуют. Считается, что мощность критерия на уровне 0.8 и выше является приемлемой.
Для более детального понимания, давайте рассмотрим три величины: размер выборки, мощность критерия и величина эффекта. Они взаимосвязаны. Зная любые два из этих параметров, третий мы всегда можем рассчитать.
Например, если эффект, который мы хотим обнаружить маленький, тогда нам понадобится большая выборка. А если у нас в распоряжении выборка поменьше, это будет означать, что мощность теста будет низкая.
С другой, стороны, если эффект, который мы ищем, ярко выражен, тогда нам понадобиться гораздо меньшая выборка, чтобы достичь мощности теста на уровне 0.8.
Также, зная размер выборки и величину эффекта, мы можем рассчитать мощность нашего теста. Давайте это и сделаем для нашего t-критерия Стьюдента из прошлого исследования, когда мы определяли эффективность мастер-класса .
Для расчета мощности критерия нам нужно будет задать следующие величины:
  • Количество пар наблюдений в наших выборках (у нас был парный t-тест): 10
  • Величина эффекта (это разность между средними значения наших двух выборок “до” и “после”): 235
  • Стандартное отклонение разниц между каждой парой: 213
## 
##      Paired t test power calculation 
## 
##               n = 10
##           delta = 235
##              sd = 213.0196
##       sig.level = 0.05
##           power = 0.9412816
##     alternative = one.sided
## 
## NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs
Из расчета выше мы видим, что при заданных условиях, мощность проведенного нами t-теста в ходе предыдущего исследования, равняется 0.94. Т.е. мощность нашего теста высокая.
Это продиктовано тем, что, при достаточно небольшой выборке в 10 наблюдений мы хотели обнаружить достаточно большой эффект (разницу в скорости чтения в 235 слов).
А теперь давайте рассчитаем, какой эффект мог бы обнаружить наш t-тест при той же выборке n=10 и уровне мощности 0.8.
## 
##      Paired t test power calculation 
## 
##               n = 10
##           delta = 181.6711
##              sd = 213.0196
##       sig.level = 0.05
##           power = 0.8
##     alternative = one.sided
## 
## NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs
Теперь мы видим, что понизив уровень мощности теста, мы смогли бы обнаружить гораздо меньший эффект, который равняется delta=182.
А если бы мы захотели найти еще менее выраженный эффект, например, в 100 слов и оставить уровень мощности t-теста, как в самом первом нашем примере power=0.94, тогда нам понадобилась бы гораздо большая выборка. Давайте проведем ее расчет:
## 
##      Paired t test power calculation 
## 
##               n = 48.15899
##           delta = 100
##              sd = 213.0196
##       sig.level = 0.05
##           power = 0.9412816
##     alternative = one.sided
## 
## NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs
При таких параметрах, мы видим, что нам нужна была бы выборка в 48 пар.
Для лучшего понимания понятия "мощность t-критерия Стьюдента" и большей наглядности, давайте построим несколько графиков.
Первый будет показывать нам, как связан размер выборки с величиной эффекта, который мы пытаемся обнаружить:

Из графика мы видим, что чем меньший эффект мы хотим обнаружить, тем большая выборка нам потребуется для этого.
А теперь давайте посмотрим на график взаимосвязи размера выборки и мощности статистического теста при заданной величине эффекта:

Данная кривая показывает, что с увеличением выборки мощность теста также возрастает.

Вывод

  1. Мы проверили наши две выборки на нормальность распределения. Формальные статистические тесты подтвердили их принадлежность к таковым.
  2. Мы рассчитали мощность парного одностороннего t-критерия Стьюдента, который применяли в ходе предыдущего исследования . Мощность критерия составляет: 0.94.

2 комментария:

  1. а 0,94 это много или мало?
    И много или мало для чего?

    ОтветитьУдалить
  2. прошу прощения, увидел в тесте пояснение)

    ОтветитьУдалить