Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучестиперсонала), которыми любезно поделился Эдуард Бабушкин.
Вступление. Философское
Накинутся на такой объём данных с наскоку не получится из-за
их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было
работать с данными. Корректно их импортировать, проверить переменные на
соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать,
выловить ошибки (например, дата увольнения 2035 год J), решить, что с ними делать. И это
только маленькая часть предварительной работы.
Преодолев данный этап предобработки данных, уже чувствуешь
себя победителем. Когда даты являются датами, а числа числами, а факторы
факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто
не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику,
аналитику, R, Python. Последовательность может быть любой. Главное начать!
Идея №1
Я решил начать с заработных плат и увольнений.
У нас есть данные о том, какую человек получал з/плату: «белую»
или «серую». А также данные о том, сколько лет проработал в компании (т.е.
берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда
получим такой результат:
Интересно
узнать есть ли взаимосвязь между зарплатой («белая»/«серая») и тем, как долго
человек работает в компании.
Хи2
дает следующий результат.
Т.е.
полученный результат значимый и есть существенные отклонения. Чтобы их увидеть,
давайте построим mosaicplot по остаткам:
Как читать
данный тип графиков?
- Размеры прямоугольников соответствуют количеству наблюдений.
- Цвет прямоугольников – величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.
- Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.
Мы видим, что у нас левый нижний квадрат («серая» зарплата и
стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто
согласился на «серую» заработную плату увольняются в первый же год с этой
работы. Т.е. количество таких наблюдений у нас в разы больше, нежели ожидалось.
Идея №2
У нас есть данные о том, кто являлся инициатором увольнения:
работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между
этой переменной и полом.
Объединив эти данные в таблицу сопряженности получим:
Рассчитаем Хи2:
Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные
(инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать
результаты, давайте построим mosaicplot.
Что мы видим на это графике?
Работодатель гораздо чаще увольняет по своей инициативе
именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо
противоположная (левый нижний светло красный квадрат).
Идея №3
Еще у нас есть данные о размере заработной платы на момент
увольнения работника. Если объединить эту информацию с инициатором увольнения и
стажем работы в этой компании до увольнения в один красивый график, тогда
получим:
Зеленые и красные боксплоты нам четко показывают, что
работодатель увольняет более дорогих сотрудников, чем те, которые увольняются
по собственной инициативе.
Можно еще сделать и такое предположение, что менее
оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами
увольняются.
Резюме
Пока это еще не супер глубокий анализ, а всего лишь первый подход
к данным. Я бы сказал – знакомство с данными. Но уже понятно, в каком
направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать».
Следите за следующими подходами. :)
Евгений, по второй идее я могу в качестве гипотезу дать наводку)
ОтветитьУдалитьУ вас Ж чаще уходят сами.
Я бы предложил такую логику:
1) посмотреть, как уходят самим или нет в зависимости от уровня позиции
2) посмотреть, как М и Ж рапределяются по уровням позиции
Гипотеза проста: топов чаще убирают, среди топов больше М:)
Эдуард, спасибо за наводку. Буду смотреть)
ОтветитьУдалить