.

Сделать репост в соц сети!

среда, 1 марта 2017 г.

Первый подход (увольнения, стаж, з/плата)


Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучестиперсонала), которыми любезно поделился Эдуард Бабушкин.

Вступление. Философское

Накинутся на такой объём данных с наскоку не получится из-за их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было работать с данными. Корректно их импортировать, проверить переменные на соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать, выловить ошибки (например, дата увольнения 2035 год J), решить, что с ними делать. И это только маленькая часть предварительной работы.

Преодолев данный этап предобработки данных, уже чувствуешь себя победителем. Когда даты являются датами, а числа числами, а факторы факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику, аналитику, R, Python. Последовательность может быть любой. Главное начать!

Идея №1

Я решил начать с заработных плат и увольнений.

У нас есть данные о том, какую человек получал з/плату: «белую» или «серую». А также данные о том, сколько лет проработал в компании (т.е. берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда получим такой результат:






Интересно узнать есть ли взаимосвязь между зарплатой («белая»/«серая») и тем, как долго человек работает в компании.
Хи2 дает следующий результат.

Т.е. полученный результат значимый и есть существенные отклонения. Чтобы их увидеть, давайте построим mosaicplot по остаткам:


Как читать данный тип графиков?

  1. Размеры прямоугольников соответствуют количеству наблюдений.
  2. Цвет прямоугольников – величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.
  3. Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.

Мы видим, что у нас левый нижний квадрат («серая» зарплата и стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто согласился на «серую» заработную плату увольняются в первый же год с этой работы. Т.е. количество таких наблюдений у нас в разы больше, нежели ожидалось.

Идея №2

У нас есть данные о том, кто являлся инициатором увольнения: работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между этой переменной и полом.

Объединив эти данные в таблицу сопряженности получим:



Рассчитаем Хи2:

Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные (инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать результаты, давайте построим mosaicplot.


Что мы видим на это графике?


Работодатель гораздо чаще увольняет по своей инициативе именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо противоположная (левый нижний светло красный квадрат).


Идея №3


Еще у нас есть данные о размере заработной платы на момент увольнения работника. Если объединить эту информацию с инициатором увольнения и стажем работы в этой компании до увольнения в один красивый график, тогда получим:


Зеленые и красные боксплоты нам четко показывают, что работодатель увольняет более дорогих сотрудников, чем те, которые увольняются по собственной инициативе.
Можно еще сделать и такое предположение, что менее оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами увольняются.
Резюме
Пока это еще не супер глубокий анализ, а всего лишь первый подход к данным. Я бы сказал – знакомство с данными. Но уже понятно, в каком направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать». Следите за следующими подходами. :)


2 комментария:

  1. Евгений, по второй идее я могу в качестве гипотезу дать наводку)
    У вас Ж чаще уходят сами.
    Я бы предложил такую логику:

    1) посмотреть, как уходят самим или нет в зависимости от уровня позиции

    2) посмотреть, как М и Ж рапределяются по уровням позиции

    Гипотеза проста: топов чаще убирают, среди топов больше М:)

    ОтветитьУдалить
  2. Эдуард, спасибо за наводку. Буду смотреть)

    ОтветитьУдалить