Опять беру данные от Высшей школы экономики. По требованию сайта полностью цитирую источник
«Российский мониторинг экономического положения и здоровья населения НИУ-ВШЭ (RLMS-HSE)», проводимый Национальным исследовательским университетом "Высшая школа экономики" и ЗАО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. (Сайты обследования RLMS-HSE: http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms)».
Взял выборку по индивидам репрезентативной выборки населения России за 2013 год. Т.е. исследователи строили выборку таким образом, чтобы она про всю Россию говорила.
Посмотрел сегодня связь двух вопросов
Обратите внимание, по оси Y - количество респондентов. Т.е. например, более 4 000 респондентов выбрали вариант "Скорее удовлетворены" и "Нет" в отношении курения.
Или в boxplot
«Российский мониторинг экономического положения и здоровья населения НИУ-ВШЭ (RLMS-HSE)», проводимый Национальным исследовательским университетом "Высшая школа экономики" и ЗАО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. (Сайты обследования RLMS-HSE: http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms)».
Взял выборку по индивидам репрезентативной выборки населения России за 2013 год. Т.е. исследователи строили выборку таким образом, чтобы она про всю Россию говорила.
Посмотрел сегодня связь двух вопросов
- rm71 Вы курите в настоящее время?
- Да
- Нет
- rj1.1.1 Насколько Вы удовлетворены или не удовлетворены Вашей работой в целом?
- Полностью удовлетворены - 1
- Скорее удовлетворены - 2
- И да, и нет - 3
- Не очень удовлетворены - 4
- Совсем не удовлетворены - 5
- rj65 Насколько Вы удовлетворены своей жизнью в целом в настоящее время?
- Полностью удовлетворены - 1
- Скорее удовлетворены - 2
- И да, и нет - 3
- Не очень удовлетворены - 4
- Совсем не удовлетворены - 5
Получились такие результаты
Давайте посмотрим взаимосвязь курения и удовлетворенностью жизнью
Обратите внимание, по оси Y - количество респондентов. Т.е. например, более 4 000 респондентов выбрали вариант "Скорее удовлетворены" и "Нет" в отношении курения.
Или в boxplot
Хи квадрат, если рассматривать удовлетворенность как номинативную переменную, и Манн Уитни, если рассматривать удовлетворенность как порядковую переменную, показывает значимость различий
Wilcoxon rank sum test with continuity correction
data: satisfaction by smoking
W = 19933519, p-value = 1.899e-12
alternative hypothesis: true location shift is not equal to 0
Взаимосвязь удовлетворенностью работой и курением
Тест
Манн Уитни
Wilcoxon rank sum test with continuity correction
data: satisfactionjob by smoking
W = 6385937, p-value = 2.146e-06
alternative hypothesis: true location shift is not equal to 0
Для тех, кто не умеет читать данные записи - посещайте семинар Аналитика для HR
Вопрос на засыпку
Как вы считаете, является ли курение причиной различий в удовлетворенности или же курение опосредует какую то другую причину и показывает не причинную связь, а корреляцию?
Если версии будут разумными, мы сможем проверить это на основе имеющихся данных
Мы тоже берем данные по каждой волне чтобы нарисовать динамику показателей. Но мы еще слили все волны в одну БД. Получилось 50 тыс. наблюдений, сквозь которые рассматриваем взякие заболевания, их предикторы и последствия.
ОтветитьУдалитьсупер!
УдалитьЯ сам совсем недавно вышел на эти данные - у меня была идея посмотреть факторы заболеваний
И начал бы с территорий.
Сергей, если у вас уже есть результаты - подскажите, где почитать можно?
Пока нет публикаций. Скоро доделаем анализ выживаемости по инсульту и его сопряженность с курением у респондентов и опубликуем. На горячую руку в блоги я не очень люблю куски выкладывать.
ОтветитьУдалитьсупер!
Удалитьмне проще - это не моя профильная тема, поэтому я могу себе позволить такие посты писать
кроме того, я постами мозги стараюсь у HR развивать...
и работайте в SPSS? R? SAS?
УдалитьМне вполне хватает SPSS и JMP. В них синтаксис и все такое. SAS это же для индустрии, как стандарт CDC. А что касается R, то мне его лень выучить, да и потребностей таких нет.
ОтветитьУдалитьну если вдруг понадобится параметрическая модель выживаемости типа ATF - обращайтесь)
Удалитьэтого вроде точно нет в SPSS
насколько понимаю, нет динамических предикторов) ну т.е. руками можно разложить данные, но это нереально на выборке в несколько тысяч наблюдений
вообще я пришел к анализу выживаемости через ... текучесть персонала)))
Удалитьтехника та же.
стал копать и увлекся.
Судя по публикациям - это одна из самых динамично развивающихся отраслей на западе в анализе данных
я накопал с десяток книг
Как изменялась доля курильщиков в России с 1994 по 2014 год
ОтветитьУдалитьhttp://ssoshnikov.blogspot.ru/2015/03/1994-2014.html
Сегодня быстро сделал )
Сергей, я задал у вас в блоге вопрос: доверительные интервалы не считали?
УдалитьДинамика выглядит круто, впечатляет
Константину Авилову
ОтветитьУдалитьизвините, у меня нет времени и желания разбираться с вашими комментами
Сделайте свой пост, в котором покажите свой анализ.
Данные доступны всем.
Удачи
думаю, что есть 3 переменная, влияющая на удовлетворенность жизнью (работой) и курением. Т.е. курение -- это признак того, что уровень жизни человека ниже, чем в среднем.
ОтветитьУдалитьПравильно ли я понял, исходя из изложенных результатов, что чем больше удовлетворенность работой и жизнью, тем меньше мы курим?
ОтветитьУдалитьнет, неправильно
Удалитькорреляция не есть причинность
почитайте комменты выше. Например, Юрия Тукачева
Скорее курение это следствие, чем причина.
ОтветитьУдалить