Вчера в посте я показал взаимосвязь между курением и удовлетворенностью жизнью и удовлетворенностью работой Курящие менее удовлетворены своей жизнью и работой.
И в конце задал вопрос "...является ли курение причиной различий в удовлетворенности или же курение опосредует какую то другую причину и показывает не причинную связь, а корреляцию?"
За этим вопросом стоит простое предположение: курящие менее удовлетворены жизнью не потому, что курят, а потому, что они, например, меньше зарабатывают, у них меньший социальный статус.
И это проверяется с помощью статистики.
Самая большая проблема - выбор качественных переменных для проверки. Обращаюсь к господам аналитикам - порекомендуйте переменные, которые можно включить в анализ. Данные брал здесь («Российский мониторинг экономического положения и здоровья населения НИУ-ВШЭ (RLMS-HSE)», проводимый Национальным исследовательским университетом "Высшая школа экономики" и ЗАО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. (Сайты обследования RLMS-HSE: http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms)»)
Я выбрал две переменные для проверки:
Первая переменная говорит о материальном положении (хотя достаточно спорные данные, но другого я просто не нашел: единственная переменная, где речь идет о сумме вознаграждения)
Вторая переменная говорит скорее о социальном статусе - банковские карты имеют люди не просто обеспеченные, а на более или менее нормальной работе с белой зарплатой и т.п..
Не курят - 9 691
Или курит 40 % опрошенных от числа ответивших о курении
Всего в опросе приняло участие 16087 респондентов (с детьми)
Итого, поскольку выборка репрезентативная, то курит 24 % населения России или 40 % взрослого населения России
не стал удалять правый хвост: кто то получил 150 000 р, но большая часть меньше 5 000 получали.
Аналитика сразу понимают, что переменную нужно логарифмировать для включение в уравнение.
Да обозначает наличие карты, Нет - отсутствие. Серый столбик курящих, розовый - не курящих.
Хи квадрат вполне себе ничего
Pearson's Chi-squared test with Yates' continuity correction
data: table(h11$smoking, h11$bankcard)
X-squared = 50.3739, df = 1, p-value = 1.271e-12
Одна градация - "Полностью удовлетворены" и "Скорее удовлетворены", другая - все остальное ("И да, и нет", "Не очень удовлетворены", "Совсем не удовлетворены").
Давайте посмотрим на удовлетворенность жизнью
Я буду показывать для краткости только коэффициенты
(Intercept) 1.596338 0.006569 243.004 < 2e-16 ***
bankcardНет -0.106556 0.014078 -7.569 4.23e-14 ***
Наличие банковской карты связано с более высокой удовлетворенностью жизнью
(Intercept) 1.538402 0.009754 157.72 < 2e-16 ***
smokingНет 0.053991 0.012161 4.44 9.14e-06 ***
Не так круто, как карта, но тоже ничего себе связано
(Intercept) 1.56537 0.01041 150.355 < 2e-16 ***
smokingНет 0.04660 0.01216 3.832 0.000128 ***
bankcardНет -0.10201 0.01411 -7.227 5.43e-13 ***
И вот здесь очень интересный факт - курение не является медиатором по отношению к банковским картам, т.е. факт курение вносит самостоятельный вклад в удовлетворенность жизнью
AIC: 10220
И в конце задал вопрос "...является ли курение причиной различий в удовлетворенности или же курение опосредует какую то другую причину и показывает не причинную связь, а корреляцию?"
За этим вопросом стоит простое предположение: курящие менее удовлетворены жизнью не потому, что курят, а потому, что они, например, меньше зарабатывают, у них меньший социальный статус.
И это проверяется с помощью статистики.
Самая большая проблема - выбор качественных переменных для проверки. Обращаюсь к господам аналитикам - порекомендуйте переменные, которые можно включить в анализ. Данные брал здесь («Российский мониторинг экономического положения и здоровья населения НИУ-ВШЭ (RLMS-HSE)», проводимый Национальным исследовательским университетом "Высшая школа экономики" и ЗАО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. (Сайты обследования RLMS-HSE: http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms)»)
Я выбрал две переменные для проверки:
- rj10.2 Если Вы получали премию по основному месту работы в течение последних 30 дней, то сколько рублей Вы получили?
- rj197 У Вас есть банковская пластиковая карта?
Первая переменная говорит о материальном положении (хотя достаточно спорные данные, но другого я просто не нашел: единственная переменная, где речь идет о сумме вознаграждения)
Вторая переменная говорит скорее о социальном статусе - банковские карты имеют люди не просто обеспеченные, а на более или менее нормальной работе с белой зарплатой и т.п..
Описательные статистики
Поскольку выборка репрезентативная, то отражает показатели по всей России и будет интересна для анализа.Курение
Указали, что курят - 3897Не курят - 9 691
Или курит 40 % опрошенных от числа ответивших о курении
Всего в опросе приняло участие 16087 респондентов (с детьми)
Итого, поскольку выборка репрезентативная, то курит 24 % населения России или 40 % взрослого населения России
Премии
Премии за последние тридцать дней носят такое распределениене стал удалять правый хвост: кто то получил 150 000 р, но большая часть меньше 5 000 получали.
Аналитика сразу понимают, что переменную нужно логарифмировать для включение в уравнение.
Анализ
Карты и курение
сразу интересный факт: есть взаимосвязь между фактом наличия у человека банковской карты и фактом куренияДа обозначает наличие карты, Нет - отсутствие. Серый столбик курящих, розовый - не курящих.
Хи квадрат вполне себе ничего
Pearson's Chi-squared test with Yates' continuity correction
data: table(h11$smoking, h11$bankcard)
X-squared = 50.3739, df = 1, p-value = 1.271e-12
Регрессия
Зависимые переменные у нас выражены порядковой шкалой, я для удобства переведу ее в бинарнуюОдна градация - "Полностью удовлетворены" и "Скорее удовлетворены", другая - все остальное ("И да, и нет", "Не очень удовлетворены", "Совсем не удовлетворены").
Давайте посмотрим на удовлетворенность жизнью
Я буду показывать для краткости только коэффициенты
Банковские карты
Estimate Std. Error t value Pr(>|t|)(Intercept) 1.596338 0.006569 243.004 < 2e-16 ***
bankcardНет -0.106556 0.014078 -7.569 4.23e-14 ***
Наличие банковской карты связано с более высокой удовлетворенностью жизнью
Курение
Estimate Std. Error t value Pr(>|t|)(Intercept) 1.538402 0.009754 157.72 < 2e-16 ***
smokingНет 0.053991 0.012161 4.44 9.14e-06 ***
Не так круто, как карта, но тоже ничего себе связано
Карты + курение
Estimate Std. Error t value Pr(>|t|)(Intercept) 1.56537 0.01041 150.355 < 2e-16 ***
smokingНет 0.04660 0.01216 3.832 0.000128 ***
bankcardНет -0.10201 0.01411 -7.227 5.43e-13 ***
И вот здесь очень интересный факт - курение не является медиатором по отношению к банковским картам, т.е. факт курение вносит самостоятельный вклад в удовлетворенность жизнью
AIC: 10220
Карты + курение + размер премии
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.01344 0.14944 6.781 2.41e-11 ***
smokingНет 0.05888 0.03775 1.559 0.119314
bankcardНет -0.09325 0.06682 -1.396 0.163244
log(money) 0.06711 0.01742 3.853 0.000126 ***
Размер премии мы, конечно же, логарифмируем. И при добавлении данной переменной влияние курения и банковских карт становится незначимым
AIC: 1055.6
Если мы возьмем только размер премии в уравнении, то
AIC: 1055.9 - т.е. добавление в уравнение карт и курения нам практически ничего не дает (Для неспециалистов: показатель AIC говорит о качестве модели. Та модель лучше, где AIC меньше).
Аналогичная ситуация для удовлетворенностью работой.
Отсюда вывод: курение не влияет непосредственно на удовлетворенность жизнью и работой.
Проблема
только в одном
lm(formula = log(money) ~ smoking, data = h11)
Residuals:
Min 1Q Median 3Q Max
-2.9611 -0.6585 -0.0433 0.6078 3.6590
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.37938 0.06491 129.086 <2e-16 div="">
smokingНет -0.12001 0.07888 -1.521 0.129
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.014 on 754 degrees of freedom
(6436 observations deleted due to missingness)
Multiple R-squared: 0.003061, Adjusted R-squared: 0.001738
F-statistic: 2.315 on 1 and 754 DF, p-value: 0.1286
2e-16>
Мы не нашли значимых различий - влияния курения на размер премии. Точнее связь на уровне 0, 129. Но за этим, на мой взгляд, стоит не очень высокой качество переменной размера премии. Размер премии указали менее 800 человек, в то время как в финальной выборке для анализа (я удалял из выборки тех, кто указывал варианты ответа "Отказ от ответа" и т.п..) 7 192 респондента.
Посему буду рад вашим рекомендациям, какую переменную выбрать для подобного анализа
И главное
Тот факт, что курение не влияет непосредственно на удовлетворенность работой и жизнью, не говорит, что курение не может влиять опосредованно: более высокий заработок, более высокий социально экономический статус может определяться фактом отказа от курения, а уже более высокий уровень зарплаты и статус влияют на удовлетворенность
хм.....
ОтветитьУдалитьинтересно, действительно интересно.
а что если "Есть ли у вас автомобиль?" и "Отдыхали ли вы за границей?"
хм) хорошая версия
Удалитьподсказать, где данные?)