.

Сделать репост в соц сети!

воскресенье, 3 декабря 2017 г.

Анализ дожития специалистов по продаже недвижимости


Анализ дожития специалистов по продаже недвижимости
(домашнее задание после семинара «HR-аналитика в R»)


Этот пост, возможно, несет не самую большую ценность с точки зрения результата.  Скорее,  мне хотелось бы замотивировать ту часть HR-сообщества, которая считает, что R это что-то, с помощью чего запускают ракеты в космос и им никогда этого не осилить (ну, и выполнить домашнее задание, конечно). По той же причине я сознательно не буду детально приводить код. Опытные им владеют и без меня,  остальным отдельные его части мало помогут: вам придется или начать изучать R и написать его самим…или съездить на семинар.  Я хочу показать логику работы и тот результат, который может получить даже такой махровый гуманитарий как я.

Анализ дожития (survival analysis) с помощью регрессии Кокса, на мой взгляд, является одним из наиболее понятных инструментов, рассматриваемых на семинаре. Кроме того, данные для этого исследования наверняка найдутся в любой компании.  Он позволяет выявить, какие факторы влияют на текучесть персонала в компании и спланировать шаги по её снижению.

Мне интересно было попробовать этот инструмент на реальных данных. Например, понять, что способствует удержанию сотрудников, принадлежащих к такой неоднозначной профессии, как специалист по продаже недвижимости.

Итак, на входе у меня были:
1.    Информация о специалистах по недвижимости одной крупной риэлторской компании за 2016-2017 год : 552 сотрудника, даты их приема и увольнения (для тех, кто уже покинул компанию),  пол, информация о наличии автомобиля.
2.    Готовый скрипт по анализу дожития, полученный на семинаре, который требовалось только адаптировать под мои данные.

Шаг 1. Готовим данные

Для работы с регрессией Кокса необходимо иметь точную цифру стажа работы сотрудника в компании в месяцах. R позволяет несколькими строчками кода добавить в наш набор данных новую переменную «Стаж», вычтя из даты увольнения дату приема сотрудника.  Для  еще работающих сотрудников  за дату увольнения мы принимаем дату выгрузки данных.

Кроме того, необходимо ввести новую переменную (например, назовем её «Увольнение»), показывающую, состоялось ли увольнение (в строчке напротив фамилии будет стоять «1»), или сотрудник еще работает (соответственно, «0»). R также позволяет нам сделать это одной строчкой кода.

Шаг 2.  А как вообще дела с текучестью?

Первым делом интересно узнать, а как в принципе обстоят дела с закрепляемостью (давайте ставить цели позитивно) специалистов по недвижимости в компании.

Регрессия Кокса и её визуализация в R позволяет нам построить вот такую шикарную картинку:

По оси X  - стаж работы сотрудника в месяцах.
По оси Y  - вероятность  сотрудника проработать (‘дожить’) до этого стажа.

Мы видим, что вероятность  доработать до одного года в компании составляет примерно 40%. Другими словами, из 100 принятых сотрудников 60 покинет компанию раньше этого срока.  

Средняя продолжительность работы специалиста (смотрим по вероятности  дожития 0,5) – примерно полгода. Пунктиром выделены границы ошибки, то есть, точнее будет сказать, что средняя продолжительность работы составляет примерно от 5 до 7,5 месяцев.

Для любителей точных цифр в R можно вывести вот такую статистику:


Выводы практически аналогичны графику: средняя продолжительность жизни специалиста – 5,94 месяца, точнее – от 5,1 до 7,7.

Это не удивительная картина, так как на специалиста по недвижимости не учат в вузах, и значительная часть сотрудников приходят "попробовать" профессию. Наша задача определить, у кого же дольше получится в ней задержаться.

Шаг 3. Анализируем конкретные факторы

Гипотеза первая. Я предположила, что дольше в компании задерживаются представители определенного пола. Не буду, уточнять, какого, но мы то, дамы, понимаем…

С помощью регрессии Кокса и последующей визуализации результатов получаем вот такую картинку:

Видим, что женщины в среднем «живут» в компании семь месяцев, мужчины – чуть больше пяти). Вроде бы «ура!» и девочки пьют шампанское, но давайте признаемся - графики находятся подозрительно близко.

Кроме красивых картинок, регрессия Кокса в R показывает нам, а действительно ли тот или иной фактор оказывает влияние на скорость увольнения.


В данном конкретном случае мы видим, что,  увы, сам по себе пол на дожитие не влияет (p > 0,05).

Ищем дальше.

Гипотеза вторая.  Вполне ожидаемо предположить, что без машины специалисту по работе с недвижимостью будет сложно, в независимости от пола. Но дамам, я уверена, сложнее в модной обуви на каблуках перемещаться от объекта к объекту.  Давайте посмотрим, как влияет на закрепляемость наличие или отсутствие автомобиля у специалистов обоих полов.

Получаем, что при таком раскладе значимы оба фактора: как пол, так и наличие авто (p < 0.05 у обоих факторов):


И, визуализировав полученный результат, видим:



…что женщины с машиной вырываются вперед и их средний срок работы  (напоминаю, смотрим по вероятности 0,5) составляет уже аж 8 месяцев (что на  треть выше среднего срока по компании , не говоря уже о мужчине без машины).

Но и тут я не стала бы открывать шампанское, празднуя торжество феминизма.

R также рассчитывает нам метрику качества нашей модели (Concordance), показывающую, а действительно ли нам хватит этих факторов, чтобы однозначно управлять текучестью.

В нашем случае мы получили вот такую характеристику качества модели:

Чуть выше 0.5 – это слабая модель. 
Нужно искать другие факторы, которые также влияют на показатель текучести.

Выводы, которые можно сделать уже сейчас:
- Вводить в качестве обязательного требования к специалистам по продаже недвижимости принадлежность к определенному полу и обязательное наличие авто  нерационально (и незаконно!)
- При прочих равных условиях при выборе из двух кандидатов можно учитывать наличие автомобиля. Про пол мы не будем во избежание обвинений в сексизме.

Бутылку шампанского я прячу до следующего поста в блоге. Сейчас мне хочется посмотреть, влияют ли на закрепляемость специалистов процессы, происходящие в  самой компании (адаптация, обучение, менеджемент). Но об этом - в следующем посте.

7 комментариев:

  1. а почему "дожитие" в кавычках?)

    ОтветитьУдалить
  2. Потому, что термин употребляется в переносном значении :)

    ОтветитьУдалить
    Ответы
    1. Ольга, будем ждать следующий пост. Любопытно посмотреть.
      Из вопросов:
      — Что делали по тем, у кого нет данных по машине. Были ли такие?
      — Как распределены сотрудники по стажу?
      Хорошо помогает читателю понять данные, графики и бокс плоты сколько сотрудников всего в датасете, сколько мальчиков, сколько девочек, сколько сейчас работает, распределение по машинам.

      Удалить
    2. Ольга, в формуле регрессии Кокса посмотрите команду strata - она прям в формулу зашивается.
      Т.е. вы задаете переменную страты: например, посмотреть как авто влияет на стаж в разрезе М и Ж. Так как вы сделали, тоже можно, но страты иногда дают больше инфо

      Удалить
    3. Коллеги, спасибо за комментарии, учту в следующем посте. Данные о машине есть по всем, мы это собираем.

      Удалить
  3. Не понимаю, это правда столько написано про графики в Excel. Дайте, пожалуйста, ссылочку на ПО, а то не до конца ясно, чего здесь такого примечательного. Спасибо ю

    ОтветитьУдалить