.

Сделать репост в соц сети!

вторник, 7 января 2014 г.

Тест отношения правдоподобия



Решил сделать статью про Тест отношения правдоподобия. Мне показалось, что внятных текстов для чайников как я в русскоязычном интернете почти нет, поэтому решил сделать такой пост, который был бы понятен на примитивном уровне.
перевод части английской статьи Wiki про Тест отношения правдоподобия. и кейса про отношение правдоподобия же из одного руководства по R.
Тест отношения правдоподобия согласно русскоязычной Вики — статистический тест, используемый для проверки ограничений на параметры статистических моделей, оценённых на основе выборочных данных. 
Кстати, прошу прочитать эту статью русскоязычной Вики про тест отношения правдоподобия и сказать, насколько понятно из этой статьи вам, что такое это самое отношение правдоподобие. В англоязычной статье такое определение (в моем переводе):
В статистике, тест отношения правдоподобия является статистическим тестом, который используется для сравнения двух моделей, одна из которых (нулевая модель) является частным случаем другой (альтернативная модель).
Если совсем упростить, свести к практическому применению, то Тест отношения правдоподобия (ОП) является аналогом критерия Хи квадрат Пирсона (и распределение ОП стремится к распределнию Хи квадрат).

Далее свободный перевод кейса англоязычной Вики   

Рассмотрим пример подкидывания двух монет,
HeadsTails
Coin 1k_{1H}k_{1T}
Coin 2k_{2H}k_{2T}
 где Coin 1,2 - монеты, Head / Tails - орлы и решки. стандартная таблица сопряженности.
У каждой ячейки есть своя вероятность Pij. 0 <= Pij <= 1. PiH+PiT = 1 (сумма вероятностей выпадения орла и решки одной монеты равна 1). Под i понимается монеты i = 1, 2, под j - орлы или решки j = H, T.
Нулевая гипотеза звучит так H0 P1j = P2j, т.е. вероятность выпадения орла одной монеты равна вероятности другой монеты.
Максимальное правдоподобие для ненулевой гипотезы H (т.е. когда вероятности значимо не равны) достигается в случае
Тест отношения правдоподобия
Максимальное правдоподобие для нулевой гипотезы достигается в случае
Тест отношения правдоподобия

Для таблицы сопряженности мы можем записать статистику отношения правдоподобия как
Тест отношения правдоподобия

Кейс Титаника

В одном из руководств по программе R есть кейс по Титанику (помните Леонардо ли Каприо?)
     Survived
Sex        No  Yes
  Male   1364  367
  Female  126  344
Где в строках пол пассажиров и членов команды корабля, в колонках спаслись / не спаслись.
Отношение шансов в пользу выживания женщин против мужчин на Титанике было ...
(344/126) / (367/1364) = 10.14697
Больше чем 10:1 (Шансы для женщин: 344/126 для мужчин:.. 367/1364 Отношение шансов  является соотношение этих двух показателей). 
Относительная вероятность (или отношение правдоподобия) женского против мужского выживания было
(344/(344+126)) / (367/(367+1364)) = 3.452165
 Это доля женщин, кто выжил, деленная на долю мужчин, которые выжили. Так женщины имели почти в 3,5 раза больше шансов выжить. Это язык лог линейного анализа.Хи-квадрат Пирсона, несомненно, свидетельствуют о высокой значимой связи между этими двумя факторами. Хи-квадрат является основным элементом лог линейного анализа, но в несколько иной форме, называемой отношения правдоподобия хи-квадрат. Преимущество этого в том, что отношение правдоподобия хи квадратов складываются (являются аддитивными). Хи квадраты, полученные из простых эффектов складываются, и получаются Хи квадраты более сложных эффектов (или "модели", я бы сказал). Для нашего кейса результаты такие
LR-chisq          df     p-value  
   434.4688      1.0000      0.0000    456.8742
LR-chisq  - значение Отношения правдоподобия df - число степеней свободы p-value - значимость Pears-chisq - значение Хи квадрат

Сравнение Хи квадрат и Теста Отношения правдоподобия

Задал вчера вопрос в сообществе ru_spss вопрос Хи квадрат VS Отношение правдоподобия в чем разница между этими критериями. Такой ответ (спасибо огромное автору за ответ!!!):
Likelihood Ratio chi-square (= G-test), как и Пирсоновская Хи-квадрат-статистика, асимптотически стремится к хи-кв. теоретич. распределению, причем лучше, чем делает это пирсоновская, в случае если в таблице есть ячейки, где остаток* по абс. величине превосходит ожидаемую частоту (что обычно бывает в ситуации небольших выборок); и в этом случае Likelihood Ratio явно предпочтительнее. Если выборка настолько мала, что преобладают ячейки с ожидаемой частотой меньше 5, еще надежнее будет использовать точный тест (Exact tests). Likelihood Ratio основан не на разнице наблюдаемая-ожидаемая частота, а на их отношении наблюдаемая/ожидаемая. Это делает его аддитивным и поэтому более удобным в многомерном анализе. В логлинейном анализе и логистической регрессии используется именно Likelihood Ratio chi-square. Короче, LR можно использовать тогда же, когда и пирсоновский хи-квадрат, и он имеет лучшие качества. Пирсоновский популярнее - в основном среди начинающих статистиков - просто по причине того, что старее и больше на слуху.
 *остаток это наблюдаемая минус ожидаемая; имеется в виду, что эта разница больше ожидаемой частоты. 

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "пост в блоге". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

Комментариев нет:

Отправить комментарий