Share |

четверг, 6 июля 2017 г.

Анализ текучести персонала – Методы прогнозирования

Это перевод, и очень замечательный перевод очень замечательной статьи.  Ричард Розенбоу (Richard Rosenow) написал две очень неплохие статьи о текучести персонала, которые перевела Екатерина Малинина, HR business partner в IT-отрасли. Эксперт в оценке, обучении, развитии талантов. Помогает менеджерам строить эффективные и надежные команды, способные переложить в программный код любую задачу бизнеса. Профиль в фейсбуке и в Линкедине
Данный перевод  Analyzing Employee Turnover - Predictive Methods -  продолжение статьи Анализ текучести персонала – Описательные методы - и он про самое вкусное - каковы практики прогноза текучести персонала.
Итак

Анализ текучести персонала – Методы прогнозирования
Для чего нужно изучать текучесть персонала?

На первый взгляд, «намерение уволиться» должно быть неплохим предсказателем текучести. Если бы кто-то из коллег сообщил мне, что собирается покинуть компанию, думаю, я был бы уверен, что вероятность его/ее ухода очень высока. Между тем многим исследователям удалось перевести это «намерение» в формат числовых значений и результаты получились впечатляющими.
Например, в 2000 году появилось мета-аналитическое исследование (т.е. анализ нескольких исследований) текучести, подготовленное специалистами Rodger Griffeth и Peter Hom, которое выявило, что среди всех фактов увольнения «намерение уволиться» имеет 12%ную общую дисперсию (другими словами, объясняет около 12% увольнений сотрудников). Это очень хороший результат для исследований в области человеческого поведения, но мало объясняет читателю, в чем дело. Если решение покинуть компанию приводит сотрудника к увольнению лишь в 12% случаев, то перед тем, как мы сможем научиться прогнозировать текучесть, нам необходимо разобраться, почему вообще люди уходят.
Я рассказал о некоторых описательных методах анализа текучести персонала в своей предыдущей статье, однако этих показателей недостаточно, чтобы понять, что может стать причиной текучести. Цитата, приписываемая Yogi Berra, гласит: «Очень сложно давать прогнозы, особенно о будущем», - и она вдвойне верна, когда прогноз касается людей. Тем не менее, разработан ряд непростых методов, которые приближают нас к прогнозированию текучести.

Продвинутые методы анализа текучести персонала

Я называю эти методы «продвинутыми», потому что их применение требует определенных знаний в области статистики и анализа. Как бы мне не хотелось, но научить вас применять эти методы за время чтения этой статьи я не смогу. Моя цель – познакомить вас с ними и снабдить ссылками на ресурсы, где бы вы могли узнать о них больше. Итак, данная статья может стать отправной точкой для каждого, кто интересуется прогнозом текучести персонала.
Ниже я познакомлю вас с логистической регрессией и анализом выживаемости, а также коротко затрону методы дерева принятия решений и случайного леса. Наконец, я расскажу о продукте Watson от компании IBM как об инструменте для анализа текучести, а также перечислю несколько компаний-разработчиков ПО, автоматизирующих прогнозные методы аналитики в приложениях для HR.
Читателей, не имеющих технической специальности, эти методы познакомят с рядом сложных статистических техник и языком статистики. Другая моя цель со времен написания стартового набора HR-аналитика (часть 1 и часть 2) была сделать эти статьи входной точкой для всех желающих разобраться в анализе и продолжить его изучение дальше.
Если вам интересно углубить (или вспомнить) знания в области статистики, могу предложить две легко читаемые книги:
Статистика. Краткий курс в комиксах, автор Larry Gonick – сначала кажется бесполезной, но к тому моменту, когда вы осознаете, что учитесь, успеете освоить базовый курс статистики
Статистика на понятном английском, автор Timothy Urdan – название говорит за себя. Отличный путеводитель по миру статистики для неспециалиста.

Логистическая регрессия

Говоря о том, почему стоит изучить логистическую регрессию, скажу, что логистическая регрессия – самый часто применяемый метод в построении прогнозов текучести персонала. Эта техника – один из способов получить ответы на вопросы «почему люди уходят из компании?», «как мы можем повлиять на уровень текучки?» и «кто, наиболее вероятно, уволится в следующем году?».
Цель любого типа регрессии – предсказать исход, используя один или несколько факторов. Мы хотим спрогнозировать текучку – зависимую величину, используя данные о работе – независимые величины. Если в науке о данных вы новичок и хотите узнать больше о том, что может дать метод регрессии, начните с прекрасного гида для начинающих на портале journalistsresource.org – Основы регрессионного анализа для журналистов.
Признаюсь, освоение регрессии заняло у меня достаточно много времени. Добавление слова «логистическая» к регрессии делает это словосочетание еще более пугающим. Однако есть хорошая новость: логистическая регрессия, попросту говоря, - это форма регрессии, используемая в том случае, когда прогнозируемый исход составляет 1 или 0. Это как раз то, что нужно для прогнозирования текучки: люди или уходят, или остаются в компании.
Недавно я встретил, на мой взгляд, самое лучшее объяснение логистической регрессии. Paul Dalen, консультант в Clarity Solution Group, опубликовал на LinkedIn статью «Кто боится логистической регрессии”. Раньше и я боялся, но после прочтения этой статьи перестал. Для всех, кто хотел бы окунуться в мир логистической регрессии, - это прекрасный источник знаний.
Прекрасный образец применения логистической регрессии в HR для изучения текучести персонала предложил вице-президент по аналитике группы HSBC в Индии Rupesh Khare. Rupesh и его команда использовали демографические данные для создания модели, прогнозирующей риск увольнения. По ссылке можно найти PDFфайл «Оценка риска увольнения персонала с использованием логистической регрессии» с пошаговым описанием процесса.
При тех возможностях, что может дать логистическая регрессия, я частенько завидую тому, как ее можно использовать в инжиниринге или технологиях. И вот почему: если в инжиниринге исходные данные верны и среда контролируема, тогда прогноз отказа какой-либо машины или механизма невероятно точен. Однако в вопросах человеческого поведения всё гораздо хуже. Феномен, исследуемый нами, включает в себя слишком много составляющих, и человеческое поведение настолько разнообразно, что добиться высокой точности невозможно.
Другой недостаток логистической регрессии в том, что результат бывает трудно интерпретировать. Первый результат, который вы, скорее всего, получите, будет отношение шансов увольнения одной группы персонала против другой. Чтобы перевести это отношение в конкретный процент вероятности текучки, необходимо проделать несколько дополнительных действий. К счастью, пока я готовил эту статью, Paul Dalen разместил новый пост по логистической регрессии, описывающий эти действия: «Принятие решений на основе логистической регрессии в малом бизнесе». Эти шаги требуют применения математической статистики, и данная статья – отличный источник знаний в этой области.

Анализ дожития

Анализ дожития, также известный как событийно-исторический анализ, - продвинутый статистический метод, оценивающий вероятность наступления события во времени. Эта методика впервые использовалась в медицине для прогнозирования выживания пациентов. Раз уж этот метод имеет такую мрачную историю, он отлично подойдет для оценки текучести персонала. Если мы вернемся к предыдущей статье «Анализ текучести персонала – описательные методы», эта техника, по сути, является более развитым и статистически обоснованным методом когортного анализа. Ниже представлено несколько выводов на основе анализа дожития.
(Подписи к рисунку)
Показатели дожития
Показатели дожития для новичков
Прогноз дожития
Показатели дожития для новичков как функция от реалистичного ознакомления с работой и длительности трудоустройства
По вертикали – агрегированный показатель дожития
По горизонтали – длительность трудоустройства (в месяцах)
Голубая линия – традиционное ознакомление с работой.
Оранжевая линия – реалистичное ознакомление с работой.

Анализ текучести персонала – Методы прогнозирования
Слайды выше – результат анализа дожития, представленный исследователем Tom Briggs, ныне работающим в Министерстве Обороны США. В своей презентации Tom описывает применение анализа дожития для исследования разницы в текучести сотрудников, которым на этапе отбора представляли реалистичное описание работы, и теми, кому предлагали традиционное описание. Как можно видеть, агрегированный показатель дожития тех сотрудников, кому предлагалось реалистичное описание работы, выше, чем тех, кому давалось традиционное описание.
Если перевести эти наблюдения в числовые показатели, то получим, что вероятность работы в компании на протяжении первых 12 месяцев выше на 15% в случае реалистичного ознакомления с работой, что для нас является интересным открытием. Лично я думаю, что результат анализа дожития – один из наиболее наглядных и легко интерпретируемых методов. Tom рассказывает более подробно о нем в работе «Прогнозирование текучести персонала с помощью анализа дожития».
В качестве еще одного примера я хотел бы предложить вам статью «Анализ дожития для исследования оттока персонала», где описывается создание и применение анализа дожития с помощью статистического языка R. Сразу скажу, что я не тот Ричард, который опубликовал данное исследование. Автор Richard Puzon использовал лучшие примеры программирования на языке R для решения задач в области HR (ниже дам несколько ссылок на его работы). Однако, к сожалению, он не разместил свою контактную информацию на сайте, поэтому это всё, что я о нем знаю. Между тем его работа очень детально и информативно описывает применение методики.
Анализ текучести персонала – Методы прогнозирования
В отличие от результатов логистической регрессии, которые мы описывали ранее, анализ дожития может спрогнозировать вероятность увольнения конкретного сотрудника в определенный момент времени. Дополнительные возможности быстро строить графики дожития и подсчитывать вероятность увольнения в конкретный момент времени делает этот метод одним из самых ценных в моем списке.

Методы деревьев – Дерево принятия решений и случайный лес

Я сомневался, включать ли дерево принятия решений и случайный лес в данную статью. Т.к. я сам еще осваиваю эти методы, не уверен, что могу дать качественное суждение. Однако я часто вижу, что исследователи используют их для прогнозирования текучести, поэтому проигнорировать их в статье не могу. Таким образом, этот раздел предлагает верхнеуровневый обзор ресурсов и ссылок на авторов, которые могут рассказать об этих методах гораздо подробнее.
В отличие от логистической регрессии или анализа дожития, которые сразу спускаются на уровень индивидов, построение модели дерева принятия решений начинается со всех сотрудников и далее распределяет их во всё меньшие и меньшие группы на основе вероятности их увольнения. Графически этот процесс выглядит, как дерево с центральной верхушкой и большим количеством листьев для каждого направления.
(Подписи к рисунку)
Параметры прогнозирования
Цель
Наблюдения
Температура
Влажность
Ветрено
Играть в гольф
Дождливо
Жарко
Высокая
Нет
Нет
Дождливо
Жарко
Высокая
Да
Нет
Пасмурно
Жарко
Высокая
Нет
Да
Солнечно
Умеренно
Высокая
Нет
Да
Солнечно
Холодно
Нормальная
Нет
Да
Солнечно
Холодно
Нормальная
Да
Нет
Пасмурно
Холодно
Нормальная
Да
Да
Дождливо
Умеренно
Высокая
Нет
Нет
Дождливо
Холодно
Нормальная
Нет
Да
Солнечно
Умеренно
Нормальная
Нет
Да
Дождливо
Умеренно
Нормальная
Да
Да
Пасмурно
Умеренно
Высокая
Да
Да
Пасмурно
Жарко
Нормальная
Нет
Да
Солнечно
Умеренно
Высокая
Да
Нет
Анализ текучести персонала – Методы прогнозирования


Чтобы разобраться с методом дерева решений, посмотрите выложенные на ресурсе r2d3.us материалы о наглядном введении в машинное обучение. Они помогут вам понять, как и почему работает данный метод.
Анализ текучести персонала – Методы прогнозирования
Если брать пример из сферы HR, можно обратиться к материалам Divyabh Misra, основателя CrowdAnalytix, где он использует дерево решений для анализа текучки. В своей работе «Анализ оттока персонала» он описывает, как продолжительность работы связана с текучестью персонала в  компании SanDisk. Рисунок ниже иллюстрирует это.
(Подпись к рисунку)
Исследование данных обнаруживает следующую зависимость: чем меньше продолжительность работы сотрудника в компании, тем выше число увольнений. Текучка в группе сотрудников, работающих в компании меньше 1,25 года, в 5 раз выше, чем в группе сотрудников, работающих в компании больше 6 лет.
Стаж работы в SanDisck
Остались
Уволились
        Статистическая проверка результатов методом дерева решений с помощью P-значений
Анализ текучести персонала – Методы прогнозирования
Техника случайного леса основана на модели дерева принятия решений. Если кратко, случайный лес берет случайную выборку из всего вашего набора данных и группирует эти данные в их собственное дерево решений. Чтобы построить прогноз, берутся усредненные показатели всех деревьев. Идея метода состоит в том, что самые малые предположения, собранные вместе, могут дать достоверный прогноз. Подробное введение в метод случайного леса доступно изложено в статье «Как рандомизация работает в методе случайного леса»
Ниже представлен довольно грубый пример того, как может выглядеть процесс.
Анализ текучести персонала – Методы прогнозирования

В каждой вершине дерева: случайным образом выбирается небольшой набор переменных; необходимо найти переменную (и значение этой переменной), которая оптимизирует разделение «листьев».
Рисунок выше взят из статьи автора Dan Kellet на портале AnalyticBridge.com. В статье под названием «Делая науку о данных доступнее – Машинное обучение – Метод дерева» дано фантастическое описание обоих методов.
Основная причина, почему я решил познакомить вас с методами дерева, хотя сам до конца не освоил их, состоит в том, чтобы поделиться обнаруженными мною превосходными примерами практиков. Всего их два: автор первого – Lyndon Sundmark, автор второго – Richard Puzon.
«Использование языка R для анализа поведения людей на примере оттока персонала» – Lyndon написал отличную серию статей об использовании R в анализе данных о персонале. Он разработал вымышленный набор данных и прекрасный пример использования дерева принятия решений и случайного леса для понимания текучести персонала.
«Отток персонала. Разведочный анализ данных» – Richard Puzon предлагает другой пример использования R в анализе текучки методом дерева решений и случайного леса. Его анализ содержит пример его собственного кода на языке R.
Наконец, я хотел бы дать вам ссылку на библиотеку R – Rattle. Ruttle – это графический пользовательский интерфейс, который запускает регрессию, дерево решений и случайный лес на вашем наборе данных. Я знаю, что эти методы можно применять для прогнозирования текучести, и с помощью Rattle я могу запускать их быстро (что, в моем случае, небезопасно, но ради благой цели).
Помимо дерева решений и случайных лесов в статистике существует еще огромное количество методов, которым я хотел бы научиться, чтобы проводить эффективный анализ данных о персонале или презентовать наглядные результаты другим людям. По мере изучения и поиска дополнительных интересных материалов я буду делиться ими с вами. Надеюсь, вы будете делать то же самое. 

Аналитика как сервис

Продукт компании IBM Watson описывается как «умный сервис для анализа данных, доступный в облачном хранилище, который проводит исследование данных, автоматизирует прогнозную аналитику и строит графики без дополнительных усилий». Что делают IBM и другие подобные разработчики – создают платформы для автоматизированного использования статистических моделей, в том числе для построения прогнозных моделей.
Анализ, проводимый с помощью этих сервисов, не будет таким же идеально выстроенным и точно соответствующим вашим запросам, как если бы вы делали его самостоятельно, однако скорость и доступность результатов работы сервиса компенсируют это. Если вы хотите попробовать, IBM подготовил выборку данных и подробный гид об использовании Watson в целях исследования текучести персонала.
Анализ текучести персонала – Методы прогнозирования

Говоря об автоматизированных сервисах, не могу не упомянуть еще о нескольких. Ниже представлен список из пяти компаний, разработавших платформы, способные автоматически обрабатывать большинство процессов из области науки о данных. Они применяют методы, перечисленные в данной статье, а также многие другие.
В алфавитном порядке:
Продолжая постигать науку о данных
В данной статье я хотел поделиться с вами техниками, которые помогут вам анализировать, а впоследствии и предсказывать текучесть персонала. Также я надеюсь, что приведенные мною примеры и ссылки на дополнительные ресурсы откроют для вас дорогу к дальнейшему изучению данного предмета. Мне хотелось бы, чтобы данная статья стала основой для тех, кто собирается постичь аналитику данных, и я буду очень признателен, если в комментариях к посту вы будете приводить примеры новых используемых вами методик и ссылки на полезные ресурсы. Огромное спасибо авторам всех источников и примеров, которые я собрал в статье. С нетерпением жду ваших мыслей по этой теме.
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме

Комментариев нет:

Отправить комментарий