Это перевод, и очень замечательный перевод очень замечательной статьи. Ричард Розенбоу (Richard Rosenow) написал две очень неплохие статьи о текучести персонала, которые перевела Екатерина Малинина, HR business partner в IT-отрасли. Эксперт в оценке, обучении, развитии талантов. Помогает менеджерам строить эффективные и надежные команды, способные переложить в программный код любую задачу бизнеса. Профиль в фейсбуке и в Линкедине
Данный перевод Analyzing Employee Turnover - Predictive Methods - продолжение статьи Анализ текучести персонала – Описательные методы - и он про самое вкусное - каковы практики прогноза текучести персонала.
Итак
Анализ текучести персонала – Методы прогнозирования
На первый взгляд, «намерение уволиться» должно быть неплохим предсказателем текучести. Если бы кто-то из коллег сообщил мне, что собирается покинуть компанию, думаю, я был бы уверен, что вероятность его/ее ухода очень высока. Между тем многим исследователям удалось перевести это «намерение» в формат числовых значений и результаты получились впечатляющими.
Например, в 2000 году появилось мета-аналитическое исследование (т.е. анализ нескольких исследований) текучести, подготовленное специалистами Rodger Griffeth и Peter Hom, которое выявило, что среди всех фактов увольнения «намерение уволиться» имеет 12%ную общую дисперсию (другими словами, объясняет около 12% увольнений сотрудников). Это очень хороший результат для исследований в области человеческого поведения, но мало объясняет читателю, в чем дело. Если решение покинуть компанию приводит сотрудника к увольнению лишь в 12% случаев, то перед тем, как мы сможем научиться прогнозировать текучесть, нам необходимо разобраться, почему вообще люди уходят.
Я рассказал о некоторых описательных методах анализа текучести персонала в своей предыдущей статье, однако этих показателей недостаточно, чтобы понять, что может стать причиной текучести. Цитата, приписываемая Yogi Berra, гласит: «Очень сложно давать прогнозы, особенно о будущем», - и она вдвойне верна, когда прогноз касается людей. Тем не менее, разработан ряд непростых методов, которые приближают нас к прогнозированию текучести.
Ниже я познакомлю вас с логистической регрессией и анализом выживаемости, а также коротко затрону методы дерева принятия решений и случайного леса. Наконец, я расскажу о продукте Watson от компании IBM как об инструменте для анализа текучести, а также перечислю несколько компаний-разработчиков ПО, автоматизирующих прогнозные методы аналитики в приложениях для HR.
Читателей, не имеющих технической специальности, эти методы познакомят с рядом сложных статистических техник и языком статистики. Другая моя цель со времен написания стартового набора HR-аналитика (часть 1 и часть 2) была сделать эти статьи входной точкой для всех желающих разобраться в анализе и продолжить его изучение дальше.
Если вам интересно углубить (или вспомнить) знания в области статистики, могу предложить две легко читаемые книги:
• Статистика. Краткий курс в комиксах, автор Larry Gonick – сначала кажется бесполезной, но к тому моменту, когда вы осознаете, что учитесь, успеете освоить базовый курс статистики
• Статистика на понятном английском, автор Timothy Urdan – название говорит за себя. Отличный путеводитель по миру статистики для неспециалиста.
Цель любого типа регрессии – предсказать исход, используя один или несколько факторов. Мы хотим спрогнозировать текучку – зависимую величину, используя данные о работе – независимые величины. Если в науке о данных вы новичок и хотите узнать больше о том, что может дать метод регрессии, начните с прекрасного гида для начинающих на портале journalistsresource.org – Основы регрессионного анализа для журналистов.
Признаюсь, освоение регрессии заняло у меня достаточно много времени. Добавление слова «логистическая» к регрессии делает это словосочетание еще более пугающим. Однако есть хорошая новость: логистическая регрессия, попросту говоря, - это форма регрессии, используемая в том случае, когда прогнозируемый исход составляет 1 или 0. Это как раз то, что нужно для прогнозирования текучки: люди или уходят, или остаются в компании.
Недавно я встретил, на мой взгляд, самое лучшее объяснение логистической регрессии. Paul Dalen, консультант в Clarity Solution Group, опубликовал на LinkedIn статью «Кто боится логистической регрессии”. Раньше и я боялся, но после прочтения этой статьи перестал. Для всех, кто хотел бы окунуться в мир логистической регрессии, - это прекрасный источник знаний.
Прекрасный образец применения логистической регрессии в HR для изучения текучести персонала предложил вице-президент по аналитике группы HSBC в Индии Rupesh Khare. Rupesh и его команда использовали демографические данные для создания модели, прогнозирующей риск увольнения. По ссылке можно найти PDFфайл «Оценка риска увольнения персонала с использованием логистической регрессии» с пошаговым описанием процесса.
При тех возможностях, что может дать логистическая регрессия, я частенько завидую тому, как ее можно использовать в инжиниринге или технологиях. И вот почему: если в инжиниринге исходные данные верны и среда контролируема, тогда прогноз отказа какой-либо машины или механизма невероятно точен. Однако в вопросах человеческого поведения всё гораздо хуже. Феномен, исследуемый нами, включает в себя слишком много составляющих, и человеческое поведение настолько разнообразно, что добиться высокой точности невозможно.
Другой недостаток логистической регрессии в том, что результат бывает трудно интерпретировать. Первый результат, который вы, скорее всего, получите, будет отношение шансов увольнения одной группы персонала против другой. Чтобы перевести это отношение в конкретный процент вероятности текучки, необходимо проделать несколько дополнительных действий. К счастью, пока я готовил эту статью, Paul Dalen разместил новый пост по логистической регрессии, описывающий эти действия: «Принятие решений на основе логистической регрессии в малом бизнесе». Эти шаги требуют применения математической статистики, и данная статья – отличный источник знаний в этой области.
Техника случайного леса основана на модели дерева принятия решений. Если кратко, случайный лес берет случайную выборку из всего вашего набора данных и группирует эти данные в их собственное дерево решений. Чтобы построить прогноз, берутся усредненные показатели всех деревьев. Идея метода состоит в том, что самые малые предположения, собранные вместе, могут дать достоверный прогноз. Подробное введение в метод случайного леса доступно изложено в статье «Как рандомизация работает в методе случайного леса»
Данный перевод Analyzing Employee Turnover - Predictive Methods - продолжение статьи Анализ текучести персонала – Описательные методы - и он про самое вкусное - каковы практики прогноза текучести персонала.
Итак
Анализ текучести персонала – Методы прогнозирования
Для чего нужно изучать текучесть персонала?
На первый взгляд, «намерение уволиться» должно быть неплохим предсказателем текучести. Если бы кто-то из коллег сообщил мне, что собирается покинуть компанию, думаю, я был бы уверен, что вероятность его/ее ухода очень высока. Между тем многим исследователям удалось перевести это «намерение» в формат числовых значений и результаты получились впечатляющими.Например, в 2000 году появилось мета-аналитическое исследование (т.е. анализ нескольких исследований) текучести, подготовленное специалистами Rodger Griffeth и Peter Hom, которое выявило, что среди всех фактов увольнения «намерение уволиться» имеет 12%ную общую дисперсию (другими словами, объясняет около 12% увольнений сотрудников). Это очень хороший результат для исследований в области человеческого поведения, но мало объясняет читателю, в чем дело. Если решение покинуть компанию приводит сотрудника к увольнению лишь в 12% случаев, то перед тем, как мы сможем научиться прогнозировать текучесть, нам необходимо разобраться, почему вообще люди уходят.
Я рассказал о некоторых описательных методах анализа текучести персонала в своей предыдущей статье, однако этих показателей недостаточно, чтобы понять, что может стать причиной текучести. Цитата, приписываемая Yogi Berra, гласит: «Очень сложно давать прогнозы, особенно о будущем», - и она вдвойне верна, когда прогноз касается людей. Тем не менее, разработан ряд непростых методов, которые приближают нас к прогнозированию текучести.
Продвинутые методы анализа текучести персонала
Я называю эти методы «продвинутыми», потому что их применение требует определенных знаний в области статистики и анализа. Как бы мне не хотелось, но научить вас применять эти методы за время чтения этой статьи я не смогу. Моя цель – познакомить вас с ними и снабдить ссылками на ресурсы, где бы вы могли узнать о них больше. Итак, данная статья может стать отправной точкой для каждого, кто интересуется прогнозом текучести персонала.Ниже я познакомлю вас с логистической регрессией и анализом выживаемости, а также коротко затрону методы дерева принятия решений и случайного леса. Наконец, я расскажу о продукте Watson от компании IBM как об инструменте для анализа текучести, а также перечислю несколько компаний-разработчиков ПО, автоматизирующих прогнозные методы аналитики в приложениях для HR.
Читателей, не имеющих технической специальности, эти методы познакомят с рядом сложных статистических техник и языком статистики. Другая моя цель со времен написания стартового набора HR-аналитика (часть 1 и часть 2) была сделать эти статьи входной точкой для всех желающих разобраться в анализе и продолжить его изучение дальше.
Если вам интересно углубить (или вспомнить) знания в области статистики, могу предложить две легко читаемые книги:
• Статистика. Краткий курс в комиксах, автор Larry Gonick – сначала кажется бесполезной, но к тому моменту, когда вы осознаете, что учитесь, успеете освоить базовый курс статистики
• Статистика на понятном английском, автор Timothy Urdan – название говорит за себя. Отличный путеводитель по миру статистики для неспециалиста.
Логистическая регрессия
Говоря о том, почему стоит изучить логистическую регрессию, скажу, что логистическая регрессия – самый часто применяемый метод в построении прогнозов текучести персонала. Эта техника – один из способов получить ответы на вопросы «почему люди уходят из компании?», «как мы можем повлиять на уровень текучки?» и «кто, наиболее вероятно, уволится в следующем году?».Цель любого типа регрессии – предсказать исход, используя один или несколько факторов. Мы хотим спрогнозировать текучку – зависимую величину, используя данные о работе – независимые величины. Если в науке о данных вы новичок и хотите узнать больше о том, что может дать метод регрессии, начните с прекрасного гида для начинающих на портале journalistsresource.org – Основы регрессионного анализа для журналистов.
Признаюсь, освоение регрессии заняло у меня достаточно много времени. Добавление слова «логистическая» к регрессии делает это словосочетание еще более пугающим. Однако есть хорошая новость: логистическая регрессия, попросту говоря, - это форма регрессии, используемая в том случае, когда прогнозируемый исход составляет 1 или 0. Это как раз то, что нужно для прогнозирования текучки: люди или уходят, или остаются в компании.
Недавно я встретил, на мой взгляд, самое лучшее объяснение логистической регрессии. Paul Dalen, консультант в Clarity Solution Group, опубликовал на LinkedIn статью «Кто боится логистической регрессии”. Раньше и я боялся, но после прочтения этой статьи перестал. Для всех, кто хотел бы окунуться в мир логистической регрессии, - это прекрасный источник знаний.
Прекрасный образец применения логистической регрессии в HR для изучения текучести персонала предложил вице-президент по аналитике группы HSBC в Индии Rupesh Khare. Rupesh и его команда использовали демографические данные для создания модели, прогнозирующей риск увольнения. По ссылке можно найти PDFфайл «Оценка риска увольнения персонала с использованием логистической регрессии» с пошаговым описанием процесса.
При тех возможностях, что может дать логистическая регрессия, я частенько завидую тому, как ее можно использовать в инжиниринге или технологиях. И вот почему: если в инжиниринге исходные данные верны и среда контролируема, тогда прогноз отказа какой-либо машины или механизма невероятно точен. Однако в вопросах человеческого поведения всё гораздо хуже. Феномен, исследуемый нами, включает в себя слишком много составляющих, и человеческое поведение настолько разнообразно, что добиться высокой точности невозможно.
Другой недостаток логистической регрессии в том, что результат бывает трудно интерпретировать. Первый результат, который вы, скорее всего, получите, будет отношение шансов увольнения одной группы персонала против другой. Чтобы перевести это отношение в конкретный процент вероятности текучки, необходимо проделать несколько дополнительных действий. К счастью, пока я готовил эту статью, Paul Dalen разместил новый пост по логистической регрессии, описывающий эти действия: «Принятие решений на основе логистической регрессии в малом бизнесе». Эти шаги требуют применения математической статистики, и данная статья – отличный источник знаний в этой области.
Анализ дожития
Анализ дожития, также известный как событийно-исторический анализ, - продвинутый статистический метод, оценивающий вероятность наступления события во времени. Эта методика впервые использовалась в медицине для прогнозирования выживания пациентов. Раз уж этот метод имеет такую мрачную историю, он отлично подойдет для оценки текучести персонала. Если мы вернемся к предыдущей статье «Анализ текучести персонала – описательные методы», эта техника, по сути, является более развитым и статистически обоснованным методом когортного анализа. Ниже представлено несколько выводов на основе анализа дожития.
(Подписи к рисунку)
Показатели
дожития
Показатели
дожития для новичков
|
Прогноз дожития
Показатели
дожития для новичков как функция от реалистичного ознакомления с работой и
длительности трудоустройства
|
По вертикали – агрегированный показатель дожития
По горизонтали – длительность трудоустройства (в месяцах)
Голубая линия – традиционное ознакомление с работой.
Слайды выше – результат анализа дожития, представленный исследователем Tom Briggs, ныне работающим в Министерстве Обороны США. В своей презентации Tom описывает применение анализа дожития для исследования разницы в текучести сотрудников, которым на этапе отбора представляли реалистичное описание работы, и теми, кому предлагали традиционное описание. Как можно видеть, агрегированный показатель дожития тех сотрудников, кому предлагалось реалистичное описание работы, выше, чем тех, кому давалось традиционное описание.
Если перевести эти наблюдения в числовые показатели, то получим, что вероятность работы в компании на протяжении первых 12 месяцев выше на 15% в случае реалистичного ознакомления с работой, что для нас является интересным открытием. Лично я думаю, что результат анализа дожития – один из наиболее наглядных и легко интерпретируемых методов. Tom рассказывает более подробно о нем в работе «Прогнозирование текучести персонала с помощью анализа дожития».
В качестве еще одного примера я хотел бы предложить вам статью «Анализ дожития для исследования оттока персонала», где описывается создание и применение анализа дожития с помощью статистического языка R. Сразу скажу, что я не тот Ричард, который опубликовал данное исследование. Автор Richard Puzon использовал лучшие примеры программирования на языке R для решения задач в области HR (ниже дам несколько ссылок на его работы). Однако, к сожалению, он не разместил свою контактную информацию на сайте, поэтому это всё, что я о нем знаю. Между тем его работа очень детально и информативно описывает применение методики.
В отличие от результатов логистической регрессии, которые мы описывали ранее, анализ дожития может спрогнозировать вероятность увольнения конкретного сотрудника в определенный момент времени. Дополнительные возможности быстро строить графики дожития и подсчитывать вероятность увольнения в конкретный момент времени делает этот метод одним из самых ценных в моем списке.
Методы деревьев – Дерево принятия решений и случайный лес
Я сомневался, включать ли дерево принятия решений и случайный лес в данную статью. Т.к. я сам еще осваиваю эти методы, не уверен, что могу дать качественное суждение. Однако я часто вижу, что исследователи используют их для прогнозирования текучести, поэтому проигнорировать их в статье не могу. Таким образом, этот раздел предлагает верхнеуровневый обзор ресурсов и ссылок на авторов, которые могут рассказать об этих методах гораздо подробнее.
В отличие от логистической регрессии или анализа дожития, которые сразу спускаются на уровень индивидов, построение модели дерева принятия решений начинается со всех сотрудников и далее распределяет их во всё меньшие и меньшие группы на основе вероятности их увольнения. Графически этот процесс выглядит, как дерево с центральной верхушкой и большим количеством листьев для каждого направления.
(Подписи к рисунку)
Параметры
прогнозирования
|
Цель
|
|||
Наблюдения
|
Температура
|
Влажность
|
Ветрено
|
Играть в гольф
|
Дождливо
|
Жарко
|
Высокая
|
Нет
|
Нет
|
Дождливо
|
Жарко
|
Высокая
|
Да
|
Нет
|
Пасмурно
|
Жарко
|
Высокая
|
Нет
|
Да
|
Солнечно
|
Умеренно
|
Высокая
|
Нет
|
Да
|
Солнечно
|
Холодно
|
Нормальная
|
Нет
|
Да
|
Солнечно
|
Холодно
|
Нормальная
|
Да
|
Нет
|
Пасмурно
|
Холодно
|
Нормальная
|
Да
|
Да
|
Дождливо
|
Умеренно
|
Высокая
|
Нет
|
Нет
|
Дождливо
|
Холодно
|
Нормальная
|
Нет
|
Да
|
Солнечно
|
Умеренно
|
Нормальная
|
Нет
|
Да
|
Дождливо
|
Умеренно
|
Нормальная
|
Да
|
Да
|
Пасмурно
|
Умеренно
|
Высокая
|
Да
|
Да
|
Пасмурно
|
Жарко
|
Нормальная
|
Нет
|
Да
|
Солнечно
|
Умеренно
|
Высокая
|
Да
|
Нет
|
Чтобы разобраться с методом дерева решений, посмотрите выложенные на ресурсе r2d3.us материалы о наглядном введении в машинное обучение. Они помогут вам понять, как и почему работает данный метод.
Если брать пример из сферы HR, можно обратиться к материалам Divyabh Misra, основателя CrowdAnalytix, где он использует дерево решений для анализа текучки. В своей работе «Анализ оттока персонала» он описывает, как продолжительность работы связана с текучестью персонала в компании SanDisk. Рисунок ниже иллюстрирует это.
(Подпись к рисунку)
Исследование данных обнаруживает следующую зависимость: чем меньше продолжительность работы сотрудника в компании, тем выше число увольнений. Текучка в группе сотрудников, работающих в компании меньше 1,25 года, в 5 раз выше, чем в группе сотрудников, работающих в компании больше 6 лет.
Стаж
работы в SanDisck
Остались
Уволились
|
Статистическая проверка результатов
методом дерева решений с помощью P-значений
|
Техника случайного леса основана на модели дерева принятия решений. Если кратко, случайный лес берет случайную выборку из всего вашего набора данных и группирует эти данные в их собственное дерево решений. Чтобы построить прогноз, берутся усредненные показатели всех деревьев. Идея метода состоит в том, что самые малые предположения, собранные вместе, могут дать достоверный прогноз. Подробное введение в метод случайного леса доступно изложено в статье «Как рандомизация работает в методе случайного леса»
В каждой вершине дерева: случайным образом выбирается небольшой набор переменных; необходимо найти переменную (и значение этой переменной), которая оптимизирует разделение «листьев».
Рисунок выше взят из статьи автора Dan Kellet на портале AnalyticBridge.com. В статье под названием «Делая науку о данных доступнее – Машинное обучение – Метод дерева» дано фантастическое описание обоих методов.
Основная причина, почему я решил познакомить вас с методами дерева, хотя сам до конца не освоил их, состоит в том, чтобы поделиться обнаруженными мною превосходными примерами практиков. Всего их два: автор первого – Lyndon Sundmark, автор второго – Richard Puzon.
• «Использование языка R для анализа поведения людей на примере оттока персонала» – Lyndon написал отличную серию статей об использовании R в анализе данных о персонале. Он разработал вымышленный набор данных и прекрасный пример использования дерева принятия решений и случайного леса для понимания текучести персонала.
• «Отток персонала. Разведочный анализ данных» – Richard Puzon предлагает другой пример использования R в анализе текучки методом дерева решений и случайного леса. Его анализ содержит пример его собственного кода на языке R.
Наконец, я хотел бы дать вам ссылку на библиотеку R – Rattle. Ruttle – это графический пользовательский интерфейс, который запускает регрессию, дерево решений и случайный лес на вашем наборе данных. Я знаю, что эти методы можно применять для прогнозирования текучести, и с помощью Rattle я могу запускать их быстро (что, в моем случае, небезопасно, но ради благой цели).
Помимо дерева решений и случайных лесов в статистике существует еще огромное количество методов, которым я хотел бы научиться, чтобы проводить эффективный анализ данных о персонале или презентовать наглядные результаты другим людям. По мере изучения и поиска дополнительных интересных материалов я буду делиться ими с вами. Надеюсь, вы будете делать то же самое.
Аналитика как сервис
Продукт компании IBM Watson описывается как «умный сервис для анализа данных, доступный в облачном хранилище, который проводит исследование данных, автоматизирует прогнозную аналитику и строит графики без дополнительных усилий». Что делают IBM и другие подобные разработчики – создают платформы для автоматизированного использования статистических моделей, в том числе для построения прогнозных моделей.
Анализ, проводимый с помощью этих сервисов, не будет таким же идеально выстроенным и точно соответствующим вашим запросам, как если бы вы делали его самостоятельно, однако скорость и доступность результатов работы сервиса компенсируют это. Если вы хотите попробовать, IBM подготовил выборку данных и подробный гид об использовании Watson в целях исследования текучести персонала.
IBM Watson – «Сценарий использования в HR – удержание ценных сотрудников» – Набор данных (откроется excel файл)
Говоря об автоматизированных сервисах, не могу не упомянуть еще о нескольких. Ниже представлен список из пяти компаний, разработавших платформы, способные автоматически обрабатывать большинство процессов из области науки о данных. Они применяют методы, перечисленные в данной статье, а также многие другие.
В алфавитном порядке:
Продолжая постигать науку о данных
В данной статье я хотел поделиться с вами техниками, которые помогут вам анализировать, а впоследствии и предсказывать текучесть персонала. Также я надеюсь, что приведенные мною примеры и ссылки на дополнительные ресурсы откроют для вас дорогу к дальнейшему изучению данного предмета. Мне хотелось бы, чтобы данная статья стала основой для тех, кто собирается постичь аналитику данных, и я буду очень признателен, если в комментариях к посту вы будете приводить примеры новых используемых вами методик и ссылки на полезные ресурсы. Огромное спасибо авторам всех источников и примеров, которые я собрал в статье. С нетерпением жду ваших мыслей по этой теме.
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме
Комментариев нет:
Отправить комментарий