Блог про HR-аналитику: Тест отношения правдоподобия

вторник, 7 января 2014 г.

Тест отношения правдоподобия

Решил сделать статью про Тест отношения правдоподобия. Мне показалось, что внятных текстов для чайников как я в русскоязычном интернете почти нет, поэтому решил сделать такой пост, который был бы понятен на примитивном уровне.
перевод части английской статьи Wiki про Тест отношения правдоподобия. и кейса про отношение правдоподобия же из одного руководства по R.

Тест отношения правдоподобия согласно русскоязычной Вики — статистический тест, используемый для проверки ограничений на параметры статистических моделей, оценённых на основе выборочных данных.

Кстати, прошу прочитать эту статью русскоязычной Вики про тест отношения правдоподобия и сказать, насколько понятно из этой статьи вам, что такое это самое отношение правдоподобие. В англоязычной статье такое определение (в моем переводе):

В статистике, тест отношения правдоподобия является статистическим тестом, который используется для сравнения двух моделей, одна из которых (нулевая модель) является частным случаем другой (альтернативная модель).

Если совсем упростить, свести к практическому применению, то Тест отношения правдоподобия (ОП) является аналогом критерия Хи квадрат Пирсона (и распределение ОП стремится к распределнию Хи квадрат).

Далее свободный перевод кейса англоязычной Вики

Рассмотрим пример подкидывания двух монет,

Heads	Tails
Coin 1	$k_{1H}$	$k_{1T}$
Coin 2	$k_{2H}$	$k_{2T}$

где Coin 1,2 - монеты, Head / Tails - орлы и решки. стандартная таблица сопряженности.

У каждой ячейки есть своя вероятность Pij. 0 <= Pij <= 1. PiH+PiT = 1 (сумма вероятностей выпадения орла и решки одной монеты равна 1). Под i понимается монеты i = 1, 2, под j - орлы или решки j = H, T.

Нулевая гипотеза звучит так H0 P1j = P2j, т.е. вероятность выпадения орла одной монеты равна вероятности другой монеты.

Максимальное правдоподобие для ненулевой гипотезы H (т.е. когда вероятности значимо не равны) достигается в случае

Максимальное правдоподобие для нулевой гипотезы достигается в случае

Для таблицы сопряженности мы можем записать статистику отношения правдоподобия как

Кейс Титаника

В одном из руководств по программе R есть кейс по Титанику (помните Леонардо ли Каприо?)

     Survived
Sex        No  Yes
  Male   1364  367
  Female  126  344

Где в строках пол пассажиров и членов команды корабля, в колонках спаслись / не спаслись.
Отношение шансов в пользу выживания женщин против мужчин на Титанике было ...
(344/126) / (367/1364) = 10.14697
Больше чем 10:1 (Шансы для женщин: 344/126 для мужчин:.. 367/1364 Отношение шансов является соотношение этих двух показателей).

Относительная вероятность (или отношение правдоподобия) женского против мужского выживания было
(344/(344+126)) / (367/(367+1364)) = 3.452165
Это доля женщин, кто выжил, деленная на долю мужчин, которые выжили. Так женщины имели почти в 3,5 раза больше шансов выжить. Это язык лог линейного анализа.Хи-квадрат Пирсона, несомненно, свидетельствуют о высокой значимой связи между этими двумя факторами. Хи-квадрат является основным элементом лог линейного анализа, но в несколько иной форме, называемой отношения правдоподобия хи-квадрат. Преимущество этого в том, что отношение правдоподобия хи квадратов складываются (являются аддитивными). Хи квадраты, полученные из простых эффектов складываются, и получаются Хи квадраты более сложных эффектов (или "модели", я бы сказал). Для нашего кейса результаты такие

LR-chisq          df     p-value  
   434.4688      1.0000      0.0000    456.8742

LR-chisq - значение Отношения правдоподобия df - число степеней свободы p-value - значимость Pears-chisq - значение Хи квадрат

Сравнение Хи квадрат и Теста Отношения правдоподобия

Задал вчера вопрос в сообществе ru_spss вопрос Хи квадрат VS Отношение правдоподобия в чем разница между этими критериями. Такой ответ (спасибо огромное автору за ответ!!!):

Likelihood Ratio chi-square (= G-test), как и Пирсоновская Хи-квадрат-статистика, асимптотически стремится к хи-кв. теоретич. распределению, причем лучше, чем делает это пирсоновская, в случае если в таблице есть ячейки, где остаток* по абс. величине превосходит ожидаемую частоту (что обычно бывает в ситуации небольших выборок); и в этом случае Likelihood Ratio явно предпочтительнее. Если выборка настолько мала, что преобладают ячейки с ожидаемой частотой меньше 5, еще надежнее будет использовать точный тест (Exact tests). Likelihood Ratio основан не на разнице наблюдаемая-ожидаемая частота, а на их отношении наблюдаемая/ожидаемая. Это делает его аддитивным и поэтому более удобным в многомерном анализе. В логлинейном анализе и логистической регрессии используется именно Likelihood Ratio chi-square. Короче, LR можно использовать тогда же, когда и пирсоновский хи-квадрат, и он имеет лучшие качества. Пирсоновский популярнее - в основном среди начинающих статистиков - просто по причине того, что старее и больше на слуху.

*остаток это наблюдаемая минус ожидаемая; имеется в виду, что эта разница больше ожидаемой частоты.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести)

или сделать перевод на карту Сбербанка,

Номер карты 676 280 38 921 538 46 57 - укажите "пост в блоге".

Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.

спасибо!

Блог про HR-аналитику

.

Сделать репост в соц сети!

вторник, 7 января 2014 г.

Тест отношения правдоподобия

Далее свободный перевод кейса англоязычной Вики

Кейс Титаника

Сравнение Хи квадрат и Теста Отношения правдоподобия

Понравился пост?

Комментариев нет:

Отправить комментарий

.

Сделать репост в соц сети!

вторник, 7 января 2014 г.

Тест отношения правдоподобия

Далее свободный перевод кейса англоязычной Вики

Кейс Титаника

Сравнение Хи квадрат и Теста Отношения правдоподобия

Понравился пост?

Комментариев нет:

Отправить комментарий

вторник, 7 января 2014 г.