Не любителям теории рекомендую пропустить вводную часть, перейти сразу вниз к кейсу.
"Фанаты" моих исследований полюбили новый "контраргумент" результатов моих исследований - "ложные корреляции". Пишу "контраргумент" в кавычках, поскольку те, кто используют его, не понимают сути ложности корреляции. Чаще всего их понимание сводится к тому, что корреляции можно найти всегда, если постараться: между размеров обуви мужчин племени Папуа и количеством опечаток в журнале "Наука и Жизнь" на 1963 год.
Мне даже не хочется останавливаться на такой ерунде, я обозначу то, что меня интересует в ложных корреляциях.
Часто происходит так, что мы выявили связь между факторами X и Y, но эта связь обусловлена неким третьим фактором G, который находится в причинно следственных отношениях с Y. Мы при этом принимаем X за "чистую" монету и получаем некорректную модель.
А именно: ложная корреляция не позволяет нам прогнозировать / принимать правильные управленческие решения.
В регрессионных моделях преодолеть эту проблему позволяет кросс валидация, но в более простых кейсах я бы предложил включать голову.
В моих исследованиях уже были такие примеры.
- Связь между социальной сетью, в которой кандидат проявляет активность, и текучестью персонала (см. Как социальные сети можно использовать в аналитике для рекрутеров). Связь эта опосредована возрастом. А возраст нам не позволяет прогнозировать стаж работы в компании
- Связь домена электронной почты и текучести персонала. Анализ влияния домена личной почты сотрудника на текучесть персонала. По той же самой причине: gmail пользуются более молодые люди. Но они, молодые люди, не более склонны к увольнению, просто они еще не успели наработать столько, сколько немолодые.
- Вчера я выяснил, что ложной корреляцией является корреляция между стажем и тем, как человек добирается на работу: на машине или общественном транспорте - эта связь тоже опосредована возрастом.
- В Кейсе по оценке эффективности очного и дистанционного обучения мы выявили значимость различий результатов теста очников и дистанционников, но это не позволяет говорить нам, что очное обучение эффективнее дистанционного, поскольку мы не учли влияние других факторов: например, того, что очники изначально были более подготовлены.
Кейс
Бенчмаркинг: текучесть HR специалистов по отраслям - я выяснил интересный факт, что банковские HR-ы склонны значимо реже покидать компанию, чем HR-ы производственных и IT компаний.
В этом месте мы можем принять версию: в банках HR-ам работать более комфортно. И успокоиться. Но я не зря привел внизу диаграмму удовлетворенности спецов по отраслям: IT отрасль лидирует с отрывом.
Т.е. получается забавная картина: в IT отрасли жить хорошо, но спецы оттуда бегут быстрее, чем из банков. Тогда можно либо усомнить корреляцию между текучестью и отраслью, либо сказать, что между удовлетворенностью и текучестью корреляция не такая уж выдающаяся.
Можно предположить, что связь между отраслью и текучестью опосредуется не собственно отраслью, а какими то третьими факторами.
Итого у меня родилось две гипотезы:
- IT отрасль просто моложе как отрасль, поэтому там показатели стажа будут более низкими. Хотел сначала читателям дать эту гипотезу на подумать: как можно проверить, но потом нарыл данных и решил не мучить вас. Проверить гипотезу просто: посмотреть значимость различий в годах приема на работу специалистов различных отраслей. Либо, как вариант, HR в банках просто раньше родился как таковой.
- Все тот же возраст. Мы можем проверить гипотезу, что в IT просто идут работать более молодые люди. Это уже знакомая до боли гипотеза)))
Более "молодая" отрасль
Показываю боксплот распределения дат устройства на работу по отраслям
по оси Х у нас отрасли, по оси Y - год трудоустройства. Медианные значения практически на одном уровне, а первый квартиль IT отрасли даже ниже, чем у банкиров и производственников. Т.е. IT HR даже чуть раньше приходили в компании, чем другие отрасли.
Но Краскел Уолисс нам показывает следующее
data: date by otr
Kruskal-Wallis chi-squared = 3.5911, df = 2, p-value = 0.166
Т.е. различия не значимые, и мы не можем подтвердить гипотезу о том, что IT отрасль более молодая, что HR в банках появился раньше.
"Возрастная" версия
Давайте проверим гипотезу, что в банках сидят старые пердуны, а в IT рвутся молодые и свежие силы HR
По оси X - отрасль, по оси Y - год рождения HR - респондентов опроса ключевые факторы текучести персонала по отраслям.
Правда, отличается от предыдущей картинки? Устраиваются в одно время примерно, но разного возраста, да? Явно, что производственники самые опытные, а айтишные ХР-ы самые молодые. Их медиана уперлась в третий квартиль банковских HR.
Краскал Уоллис говорит нам следующее
Kruskal-Wallis rank sum test
data: gr by otr
Kruskal-Wallis chi-squared = 19.2368, df = 2, p-value = 6.649e-05
Хотя в данном случае распределение практически нормальное, поэтому можно было применить дисперсионный анализ. Попарное сравнение отраслей показало
- Значимые различия между производством и IT (средние 1977.103 и 1981.464, p-value = 1.999e-05)
- Значимые различия между банками и IT (средние 1977.922 и 1981.464, p-value = 0.002138)
- Незначимые между банками и производством (средние 1977.922 и 1977.103, p-value = 0.4822)
Я думаю, post Hoc анализ можно сделать на глазок: значимость с учетом Бонферони не вылезет за 0, 05.
Результаты
давайте признаемся, интересные. Мы почти нашли объяснение, что разница в стаже между банковскими HR и HR IT объясняется тем, что в IT идут более молодые специалисты. Я написал "почти" потому, что разница в возрасте еще сама по себе не доказывает отсутствие влияние отрасли на стаж. Для этого нам нужно сделать регрессионный анализ с двумя переменными: возраст и отрасль. Добьем пример до конца?)
И самое интересное: допустим, мы объясним различие между банками и IT, но разница в текучести персонала HR в банках и на производстве не объясняется возрастом. И следовательно там зарыты другие факторы. А текучесть в производстве и IT примерно одинакова (незначимо отличается), но там тоже действует какой то фактор, поскольку есть значимые различия.
Вопросы
Для начала хочу получить обратную связь насчет ясности изложения:=
- Достаточно ли понятным, ясным языком я изложил пост?
- Если да, то хотите ли продолжения?
- Если да, то какие факторы могут влиять на значимые различия между текучестью HR банков и производством, IT и производством?
спасибо! жду ваши ответы
Комментариев нет:
Отправить комментарий