Share |

четверг, 30 октября 2014 г.

Ложные корреляции: очищение эффекта (на примере текучести персонала)

Не любителям теории рекомендую пропустить вводную часть, перейти сразу вниз к кейсу.
"Фанаты" моих исследований полюбили новый "контраргумент" результатов моих исследований - "ложные корреляции". Пишу "контраргумент" в кавычках, поскольку те, кто используют его, не понимают сути ложности корреляции. Чаще всего их понимание сводится к тому, что корреляции можно найти всегда, если постараться: между размеров обуви мужчин племени Папуа и количеством опечаток в журнале "Наука и Жизнь" на 1963 год.
Мне даже не хочется останавливаться на такой ерунде, я обозначу то, что меня интересует в ложных корреляциях.
Часто происходит так, что мы выявили связь между факторами X и Y, но эта связь обусловлена неким третьим фактором G, который находится в причинно следственных отношениях с Y. Мы при этом принимаем X за "чистую" монету и получаем некорректную модель.
А именно: ложная корреляция не позволяет нам прогнозировать / принимать правильные управленческие решения. 
В регрессионных моделях преодолеть эту проблему позволяет кросс валидация, но в более простых кейсах я бы предложил включать голову.
В моих исследованиях уже были такие примеры. 
  1. Связь между социальной сетью, в которой кандидат проявляет активность, и текучестью персонала (см. Как социальные сети можно использовать в аналитике для рекрутеров). Связь эта опосредована возрастом. А возраст нам не позволяет прогнозировать стаж работы в компании
  2. Связь домена электронной почты и текучести персонала. Анализ влияния домена личной почты сотрудника на текучесть персонала. По той же самой причине: gmail пользуются более молодые люди. Но они, молодые люди, не более склонны к увольнению, просто они еще не успели наработать столько, сколько немолодые. 
  3. Вчера я выяснил, что ложной корреляцией является корреляция между стажем и тем, как человек добирается на работу: на машине или общественном транспорте - эта связь тоже опосредована возрастом. 
  4. В Кейсе по оценке эффективности очного и дистанционного обучения мы выявили значимость различий результатов теста очников и дистанционников, но это не позволяет говорить нам, что очное обучение эффективнее дистанционного, поскольку мы не учли влияние других факторов: например, того, что очники изначально были более подготовлены.
Сегодня покажу, как я "очищал" эффект влияния отрасли на текучесть HR специалистов

Кейс

Бенчмаркинг: текучесть HR специалистов по отраслям - я выяснил интересный факт, что банковские HR-ы склонны значимо реже покидать компанию, чем HR-ы производственных и IT компаний. 
В этом месте мы можем принять версию: в банках HR-ам работать более комфортно. И успокоиться. Но я не зря привел внизу диаграмму удовлетворенности спецов по отраслям: IT отрасль лидирует с отрывом. 
Т.е. получается забавная картина: в IT отрасли жить хорошо, но спецы оттуда бегут быстрее, чем из банков. Тогда можно либо усомнить корреляцию между текучестью и отраслью, либо сказать, что между удовлетворенностью и текучестью корреляция не такая уж выдающаяся.
Можно предположить, что связь между отраслью и текучестью опосредуется не собственно отраслью, а какими то третьими факторами. 
Итого у меня родилось две гипотезы:
  1. IT отрасль просто моложе как отрасль, поэтому там показатели стажа будут более низкими. Хотел сначала читателям дать эту гипотезу на подумать: как можно проверить, но потом нарыл данных и решил не мучить вас. Проверить гипотезу просто: посмотреть значимость различий в годах приема на работу специалистов различных отраслей. Либо, как вариант, HR в банках просто раньше родился как таковой.
  2. Все тот же возраст. Мы можем проверить гипотезу, что в IT просто идут работать более молодые люди. Это уже знакомая до боли гипотеза))) 

Более "молодая" отрасль 

Показываю боксплот распределения дат устройства на работу по отраслям 
Ложные корреляции: очищение эффекта (на примере текучести персонала)

по оси Х   у нас отрасли, по оси Y - год трудоустройства. Медианные значения практически на одном уровне, а первый квартиль IT отрасли даже ниже, чем у банкиров и производственников. Т.е. IT HR даже чуть раньше приходили в компании, чем другие отрасли.
Но Краскел Уолисс нам показывает следующее
data:  date by otr
Kruskal-Wallis chi-squared = 3.5911, df = 2, p-value = 0.166
Т.е. различия не значимые, и мы не можем подтвердить гипотезу о том, что IT отрасль более молодая, что HR  в банках появился раньше.

"Возрастная" версия 

Давайте проверим гипотезу, что в банках сидят старые пердуны, а в IT рвутся молодые и свежие силы HR
Ложные корреляции: очищение эффекта (на примере текучести персонала)

По оси X - отрасль, по оси Y - год рождения HR - респондентов опроса ключевые факторы текучести персонала по отраслям.
Правда, отличается от предыдущей картинки? Устраиваются в одно время примерно, но разного возраста, да? Явно, что производственники самые опытные, а айтишные ХР-ы самые молодые. Их медиана уперлась в третий квартиль банковских HR.
Краскал Уоллис говорит нам следующее
Kruskal-Wallis rank sum test

data:  gr by otr
Kruskal-Wallis chi-squared = 19.2368, df = 2, p-value = 6.649e-05

Хотя в данном случае распределение практически нормальное, поэтому можно было применить дисперсионный анализ. Попарное сравнение отраслей показало 
  • Значимые различия между производством и IT (средние 1977.103 и 1981.464, p-value = 1.999e-05)     
  • Значимые различия между банками и IT (средние  1977.922  и  1981.464, p-value = 0.002138)
  • Незначимые между банками и производством (средние  1977.922  и 1977.103, p-value = 0.4822)
Я думаю, post Hoc анализ можно сделать на глазок: значимость с учетом Бонферони не вылезет за 0, 05.

Результаты

давайте признаемся, интересные. Мы почти нашли объяснение, что разница в стаже между банковскими HR и HR IT объясняется тем, что в IT идут более молодые специалисты. Я написал "почти" потому, что разница в возрасте еще сама по себе не доказывает отсутствие влияние отрасли на стаж. Для этого нам нужно сделать регрессионный анализ с двумя переменными: возраст и отрасль. Добьем пример до конца?)
И самое интересное: допустим, мы объясним различие между банками и IT, но разница в текучести персонала HR  в банках и на производстве не объясняется возрастом. И следовательно там зарыты другие факторы. А текучесть в производстве и IT примерно одинакова (незначимо отличается), но там тоже действует какой то фактор, поскольку есть значимые различия. 

Вопросы

Для начала хочу получить обратную связь насчет ясности изложения:=
  • Достаточно ли понятным, ясным языком я изложил пост? 
  • Если да, то хотите ли продолжения?
  • Если да, то какие факторы могут влиять на значимые различия между текучестью HR банков и производством, IT и производством?
спасибо! жду ваши ответы

Комментариев нет:

Отправить комментарий

рек