.

Сделать репост в соц сети!

вторник, 25 апреля 2017 г.

Learning analytics: Оценка эффективности учебного мероприятия

Сегодня Евгений Бондаренко, Директор Академии ДТЭК, провел вебинар Learning analytics: Оценка эффективности учебного мероприятия (по ссылке откроется запись вебинара), выкладываю также презентацию вебинара.
Предлагаю высказывать пожелания Евгению по теме будущего вебинара.



суббота, 22 апреля 2017 г.

Низкий эмоциональный интеллект работника снижает риски увольнения?

Это пост гипотеза. Но гипотеза, ИМХО, красивая.
В нашем исследовании есть вопрос "Благодарил ли Вас Ваш руководитель за достижения?" с вопросами:
  1. Да, практически все достижения были отмечены моим руководителем;   
  2. Если не все, то многие  
  3. Получал лишь изредка 
  4. Нет   
Я для демонстрации эффекта убираю средние ответы и оставляю крайние (все достижения были отмечены и ни одного). Весь пост возник потому, что отношения с руководителем влияют на текучесть - это очевидно.
Низкий эмоциональный интеллект работника снижает риски увольнения
Как читать такой тип диаграммы - Анализ и визуализация дожития: чем HR похож на медиков.
По оси X - стаж работы в месяцах;
По оси Y - вероятность доработать до такого стажа в компании.
Заметно, что влияние на текучесть персонала поддержки руководителя сказывается в первые два года работы в компании. Речь про волюнтарную текучесть, конечно.
В этом месте я задумался, а какие качества самого респондента влияют на выбор того или иного варианта ответа про поддержку руководителя.
Два самых важных качества:
  1. Возраст на момент трудоустройства;
  2. Шкала теста КТО - Общий балл (по тесту способностей - некий интегральный интеллект).
Вот как результат выглядит на графике
Низкий эмоциональный интеллект работника снижает риски увольнения
  • По оси X - показатели теста;
  • По оси Y - возраст на момент трудоустройства;
  • зеленые треугольнички - поддержка руководителем подчиненного;
  • красные кружочки - не поддержка руководителем.
Я вижу скопление поддержки в возрасте ниже 30 лет со средними показателями по интеллекту.
А машина говорит так:
Низкий эмоциональный интеллект работника снижает риски увольнения
Это инструмент анализа - Дерево решений.
Читаем диаграмму так:
  1. Самый важный разделяющий фактор поддержки руководителем подчиненного - возраст трудоустройства;
  2. Если вы моложе 26 лет и Ваш Общий Балл по КТО менее 8, 6 (вы молодой и ум не самый выдающийся), то с вероятностью 75 % вы ответите, что руководитель все ваши начинания отмечал (крайний правый зеленый овал);
  3. Если вы моложе 26 лет и Ваш Общий Балл по КТО более 8, 6 (вы молодой и ум выдающийся), то с вероятностью 62 % вы ответите, что руководитель не отметил ни одно ваше начинание; 
  4. А если вы старше 34 лет, то с вероятностью 65 % ни одного вашего достижения не будет отмечено руководителем;
  5. ну и т.п..
Для спецов скажу, что тренировал в R, трейн сплит и кросс валидация были сделаны, причем в нескольких режимах.
Всего у нас 580 строк для анализа
Базовая точность модели = 51 % (296 указали, что не благодарит, 284 - все достижения отмечает; 296 / (296 + 284) = 51 %).
На тест сете мы получаем accuracy 58 %, то есть добавляем к нашей модели 7 %. Маловато, конечно. Но на более продвинутых моделях типа xgboost мы получим более высокуб точность, понятно, что дерево решений нам помогает визуализировать красиво решение.

Вопросы, выводы, гипотезы

У меня сложилось впечатление, что совместный эффект переменных "возраст" и "Общий балл IQ" представляет собой действие эмоционального интеллекта.
Напомню, что мы не "снимаем" реальные действия руководителя, а только ответ респондента. И, наверное, есть объективная правда в том, что более возрастных подчиненных меньше благодарят, но участие в оценке интеллекта показывает, что это выбор / восприятие / оценка действий руководителя подчиненным.
В данным случае под эмоциональным интеллектом я понимаю умение подчиненного правильно понимать и оценивать действия руководителя. В нашем случае я делаю гипотезу, что до 26 лет эмоциональный интеллект - умение оценивать действия руководителя не сформировано.
Более молодые с выдающимся не эмоциональным интеллектом не получают поддержки руководителя? Вопрос в руководителях? Нет, скорее всего, молодые с высоким не эмоциональным интеллектом так видят действия руководителя.
А молодые с невыдающимся интеллектом чаще видят благодарность.
И заметьте, машина нам не сказала, что молодых  с низким интеллектом не благодарят, верно?
И только в промежутке от 26 до 34 лет очень сложный период, когда идет становление эмоционального интеллекта. Обратите внимание, в промежутке от 26 до 34 лет  картина меняется кардинально: люди с высоким не эмоциональным интеллектом уже видят поддержку руководителя. Т.е. идет формирование эмоционального интеллекта, созревание, когда поступки видятся в правильном свете.
Я понимаю, что гипотеза пришита за уши, буду рад критике, но хотелось бы не просто критику, а объяснение полученных результатов.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 

или сделать перевод на карту Сбербанка  676 280 38 921 538 46 57 - укажите "пост в блоге".
Карта Тинкофф банк 5213 2438 5071 8220
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 

вторник, 18 апреля 2017 г.

Python и машинное обучение Себастьяна Рашки



Python и машинное обучение
Python и машинное обучениеКоллеги, начну с рекламы издательства Книжный интернет-магазин КТК "Галактика" - издательство выпускает на рынок не только книги про аналитику, но и, например, книги для детей, но для меня это лучшее издательство по аналитике.
Мне уже говорили некоторые аналитики, что лучше изучать машинное обучение на курсах, дабы руками запоминать уроки. Но я получил просто неоценимые знания в книге Коэльо. Или как можно говорить об аналитике в R без книги Введение в статистическое обучение с примерами на языке R - и курс по этой книге в Стенфорде является дополнением к книге, а не наоборот.
-
Python и машинное обучение - книга из этого же золотого фонда. Скажу мистическую вещь: эта книга просто должна стоять на полке. И любой аналитик / специалист по машинному обучению должен знать имя Себастьяна Рашки (по ссылке - профиль автора в Линкедине, а на фото, как вы ужу догадались - сам автор. На фото справа мой нос и очки поверх книги). Мне кажется, фото Себастьяна Рашки - лучшая реклама книги. И если верить профилю Рашки в Линкедине, он работает сейчас PhD Candidate - Computational Biology в Мичиганском Университете (до кучи замечу, что у Мичиганского университета куча интересных курсов по Python на курсере - от работы с текстом до построения рекомендательных систем).
Сайт индийских аналитиков Analytics Vidhya (этот сайт стремительно завоевыает популярность среди аналитиков, специалистов по data science и машинному обучению) считает Рашку самым влиятельным аналитиком в Мире. Себастьян Рашка один из разработчиков библиотеки Python scikit-learn.
Книгу эту могут использовать как новички, так и продвинутые спецы: она содержит базовые алгоритмы машинного обучения в библиотеке scikit-learn, но также содержит продвинутые вещи типа тонких настроек алгоритмов через сетку (grid) параметров, встраивание алгоритмов машинного обучения в веб- приложения (Flask, а не Django если что). И тренировка нейронных сетей (ну куда же без распознавания изображений???:)) с помощью библиотек Keras и Theano.
Еще от себя: я очень бегло посмотрел книгу, но по ощущениям - в книге Python и машинное обучение идеальное сочетание методологии, кода на Python, математики и визуализации.
Резюме: я ставлю эту книгу в ряд самых моих затрепанных книг по аналитике:
  1. Введение в статистическое обучение с примерами на языке R - стенфордские профессора;
  2. Построение систем машинного обучения на языке Python - Луиса Педро Коэльо 
  3. И вот теперь третья книга - Python и машинное обучение Себастьяна Рашки.
Есть еще классные книги Мастицкого по R, есть технические книги по R типа R в действии. Анализ и визуализация данных на языке R или классная книга по технике в Python Python и анализ данных - эти две книги важные, они про технику, они как библиотечные / справочные издания для работы в R и Python, вторую книгу преподы курса Вышки Введение в машинное обучение на Курсере представляли как базовую книгу своего курса, но если говорить именно о машинном обучении, то я бы в базовые книги, книги золотого фонда, самые-затрепанные-книги поставил три выше перечисленные.
И вам всем удачи в изучении машинного обучения через книгу Python и машинное обучение Себастьяна Рашки:)
Купить на Озоне>>

Эволюция и революция в измерении вовлеченности персонала

воскресенье, 16 апреля 2017 г.

Внутренняя структура лидерства

Несколько лет назад проводил опрос о лидерстве.
Дизайн опроса был такой:
я просил описать непосредственного руководителя в терминах поведения, а потом шел вопрос "Является ли Ваш руководитель лидером коллектива?". Вопросы в терминах поведения были такие (в скобках сразу даю сокращения, которые использую дальше в анализе):
  1. как Вы оцениваете профессиональные качества своего руководителя в сфере ваших обязанностей (именно ваших) - experts
  2. При планировании работ советуется ли с Вами Ваш руководитель, учитывает Ваше мнение, задает вам вопросы? - advice
  3. Есть ли у Вас четко поставленные цели работы (KPI и т.п.) - KPI
  4. Насколько широко Ваш руководитель делегирует Вам полномочия при выполнении работы? - deleg
  5. Дает ли Ваш руководитель Вам обратную связь по поводу выполненной работы? - Feedback
  6. Критикует ли Вас руководитель в присутствии других? - critics
  7. Благодарит ли Вас Ваш руководитель за достижения? - recognitions
  8. Общаетесь ли Вы со своим руководителем на темы, не относящиеся непосредственно к вашей работе? - nonwork
  9. Осведомлен ли Ваш руководитель о Ваших карьерных планах? - carier
  10. Занимается ли Ваш руководитель саморазвитием?- selfdevelop.head
  11. Проявляет ли Ваш руководитель заботу о Вашем развитии?- caredevelemp
  12. Повышает ли Ваш руководитель на Вас голос? - voice

Какие результаты мы можем получить из данного опроса? 

Построить регрессию и выявить факторы, которые а) связаны с лидерством и б) имеют максимальный вес. Это ясный и очевидный вопрос, который на самом желе достигается разными путями
Внутренняя структура лидерства

Если просто линейно посмотреть на вес факторов, то они будут располагаться в таком порядке (напомню, расшифровку факторов смотри выше). Это очень круто и позволяет сделать определенные выводы.
На первом месте - благодарность руководителя, далее - Забота о развитии подчиненного, на третьем, что неожиданно - саморазвитие руководителя.

Внутренняя структура лидерства

Вот здесь возникает один вопрос: на самом деле качества/поведенческие проявления лидерства связаны между собой - очевидно, что коррелируют. Поэтому интересно еще посмотреть на структуру связей между различными поведенческими факторами лидерства.
Внутренняя структура лидерства

Эта картинка - визуализация корреляционной матрицы. 
На картинке в узлах показаны поведенческие факторы. Линии - наличие связи / корреляции, толщина линии - сила связи. Цвет узлов я выбрал произвольно, просто так, он ничего не значит. Немного расшифрую качества:
  • recognitions - rcg;
  • caredevelemp - crd;
  • selfdevelop.head - sl;
  • Feedback - Fdb;
  • experts - exp;
  • KPI- KPI:
  • advice - adv;
  • deleg - dlg;
  • carier - crr;
  • nonwork - nnw;
  • voice - voc;
  • critics - crt.
Интересная картинка, правда? Не буду навязывать свои интерпретации, смотрите сами. Логичной и забавной кажется связь между критикой руководителя и повышением голоса. 
И еще важно, что вес фактора (сила связи с лидерством) связан с тем, насколько этот же фактор имеет широкую "сеть связей" с другими факторами. 

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 

или сделать перевод на карту Сбербанка  676 280 38 921 538 46 57 - укажите "пост в блоге".
Карта Тинкофф банк 5213 2438 5071 8220
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 

суббота, 15 апреля 2017 г.

Статьи по hr-аналитике на английском 19

19-й выпуск статей по hr-аналитике на английском.
Предыдущий, 18 выпуск, статей на английском по HR-аналитике вы найдете по ссылке Статьи по hr-аналитике на английском 18
Статьи по hr-аналитике на английском 19

Итак,

  1. Data: Referrals Strongly Impact Retention and Depend on Employee Performance - "простенький", но потрясающе важный кейс про оценку реферальных программ от компании Тесла. "Простенький" кейс потому, что для реализации этого кейса не надо строить нейронные сети, deep learning и т.п., не нужно выуживать информацию из социальных сетей, все на поверхности, методы анализа на уровне студентов психфака. Но кейс от компании Тесла, а не от российской компании. Коллеги, ну когда уже?
  2. Five people analytics strategy essentials for 2017 - Michael Carty резюмирует стратегические принципы развития HR-аналитики на 2017 год. Для нас это выглядит слишком революционно, читайте, например, второй принцип "Put people analytics at the centre of what HR does". Для нормальных компаний это нормальный принцип: как в науке любой вывод должен базироваться на статистическом анализе, так любое HR решение должно базироваться на hr-аналитике. 
  3. 3 Ways Data Shapes the Talent Strategy at Tesla, Chevron, and LinkedIn - это статья включает вышеприведенный кейс от Теслы, но также дает представление про кейсы по аналитике талантов от Chevron и LinkedIn.
  4. Who’s Who in People analytics - если вы хотите читать западных hr-аналитиков напрямую, через twitter, то в этой статье вы узнаете список популярных западных hr-аналитиков, сможете подписаться на twitter аккаунты.
  5. Surveys should be mostly open text - Andrew Marritt обосновывает применение текста в опросах, приводит интересные данные одного исследования. 
  6. Key to analyzing your employee's performance? Data Velocity - интересный заход от Richard Rosenow, но если управление эффективностью не критиковал только ленивый, то Ричард в отличие от многих, видит свет в конце туннеля, и решение это опять в инструментах машинного обучения. 

На этом на сегодня все, хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.

воскресенье, 9 апреля 2017 г.

Услуга в проведении корпоративных опросов



Под корпоративным опросом я понимаю широкий диапазон опросов:
  1. корпоративные опросы вовлеченности, удовлетворенности, лояльности;
  2. корпоративные опросы отношения персонала к нововведениям, событиям, политикам компании;
  3. корпоративные опросы обратной связи по обучению и 360 градусов;
  4. выходное exit интервью.
Корпоративный опрос состоит из следующих стадий:
  1. Разработка дизайна (форма опроса, анонимно / нет, какого типа результаты, периодичность, выборка и т.п.);
  2. Разработка анкеты;
  3. Выбор платформы;
  4. Проведение корпоративного опроса;
  5. Обработка и анализ данных;
  6. Интерпретация и представление результатов корпоративного опроса.
Со своей стороны предлагаю услуги в следующих этапах корпоративного опроса:
  1. Помощь в разработке дизайна корпоративного опроса (см. например, статью, где я описываю подходы в проведении корпоративных опросов вовлеченности Вовлеченность персонала. Обзор подходов);
  2. Разработка анкеты / аудит существующих вопросов анкеты; 
  3. Помощь в выборе платформы;
  4. Обработка и анализ данных, интерпретация и представление результатов корпоративного опроса;
  5. Как дополнительная опция: передача кода обработки и анализа данных в R, Python и обучение ваших специалистов в обработке и анализе данных.
  6. Отдельно выделяю опцию: анализ открытых вопросов корпоративного опроса (см. о подходах в анализе открытых вопросов Стоимость функций HR на рынке и Обратная связь сотрудников как инструмент диагностики корпоративной культуры / Анализ анкет обратной связи по обучению. Что нам могут сказать открытые вопросы). 
Преимущества работы со мной:
  1. Большой опыт в разработке и проведении опросов, в т.ч. корпоративных опросов (результаты и интерпретации открытых опросов постоянно публикую в блоге); 
  2. Владение методами анализа данных, программами обработки и анализа данных корпоративных опросов: excel, SPSS, R, Python.
  3. Владение методами анализа открытых вопросов / текста: анализ тональности теста, кластерный / тематический анализ.
Мои контакты
Услуга в проведении корпоративных опросов


суббота, 8 апреля 2017 г.

Прогноз текучести персонала на основе анализа дожития



Жанр поста - гротескный мульфильм о текучести персонала.
Кейс на основе данных нашего исследования факторов текучести персонала. К кейсу можно по разному относиться, я бы практикам рекомендовал смотреть на него как на практику создания скоринговых карт текучести персонала: как на основе входных данных о кандидатах можно прогнозировать текучесть. Фишка здесь в использовании регрессии Кокса, которая не отвечает на вопросы:
  1. уволится / не уволится кандидат;
  2. проработает более полугода или нет;
  3. как долго проработает.
Регрессия Кокса отвечает на вопрос о рисках дожития или вероятности дожития или увольнения. И этот показатель как бы не совсем физически понятен. Что нам делать, если машинка говорит, что у такого то кандидата вот такие риски текучести, а у этого - вот такие? Задумка поста как раз в том и состоит, чтобы показать, как мы практически можем использовать регрессию Кокса при приеме в виде скоринговой карты.
Показываю схематически, как это работает.
Какие данные нужны:
  • дата приема
  • дата увольнения (если работник еще работает, стоит пусто);
  • Любая информация о работнике, какую можно собрать.

Шаг 1. Даем общую картинку текучести персонала по компании

Прогноз текучести персонала на основе анализа дожития
Это общая картина текучести персонала. Где по оси X - стаж работы, ось Y - вероятность дожития.
Как читать такой тип диаграммы - Анализ и визуализация дожития: чем HR похож на медиков.
Ок, это некая средняя по больнице выбытия работников. И некий средний работник данной компании имеет 50-ти % вероятность дожить до 42 месяцев (3, 5 года). Или, если вам так удобней, средний срок жизни работника в компании - 3,5 года.

Шаг 2. Первый драйвер 

Я провел анализ с использованием регрессии Кокса, где Y - время дожития, а предикторы - шкалы теста Big5 и КТО (и мы, конечно же, говорим про волюнтарную текучесть - когда уходят по собственному желанию).
Выявили, что шкала Импульсивности - Самоконтроля позволяет прогнозировать волюнтарную текучесть.
Call:
coxph(formula = Surv(stag, event) ~ Ш8...ИМПУЛЬСИВНОСТЬ...САМОКОНТРОЛЬ.,
    data = q)

  n= 998, number of events= 555

                                                                                     coef exp(coef) se(coef)      z Pr(>|z|)
Ш8...ИМПУЛЬСИВНОСТЬ...САМОКОНТРОЛЬ. -0.06453   0.93751  0.02084 -3.097  0.00196 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

                                    exp(coef) exp(-coef) lower .95 upper .95
Ш8...ИМПУЛЬСИВНОСТЬ...САМОКОНТРОЛЬ.    0.9375      1.067       0.9    0.9766

Concordance= 0.535  (se = 0.014 )
Rsquare= 0.01   (max possible= 0.999 )
Likelihood ratio test= 9.61  on 1 df,   p=0.00194
Wald test            = 9.59  on 1 df,   p=0.001958
Score (logrank) test = 9.61  on 1 df,   p=0.001938

Модель слабая, Concordance= 0.535 - как бы ни о чем совсем. Но скажите спасибо импульсивности, что она связана с текучестью. Это уже здорово!
Что нам дает это знание? Представим, что к нам пришли два чувака, у одного по шкале импульсивность - самоконтроль 3 балла (высокая импульсивность), у другого 9 (низкая импульсивность).
Давайте визуализируем различия в их прогнозе текучести.
Прогноз текучести персонала на основе анализа дожития
Пыпыц.... они идут практически рядышком... Читать эту диаграмму нужно так:
Первый с 50-ти % вероятностью доработает до 36 месяце или трех лет, а в второй с той же 50-ти % вероятностью доработает до 54 месяцев или 4,5 лет. В цифрах не так уж мало. Разница практически в 1,5 раза. И если у нас нет проблем с другими факторами (а мы, конечно, должны еще прогнозировать их эффективность), то возьмем второго.

Шаг 3. Добавляем драйверы

Но мы же не только тест с ними проводили, мы другую информацию собирали. После моих исследований теперь все компании собирают информацию о том, через какой источник трафика к нам пришел кандидат. Итак, у нас есть информация о том, через какой источник трафика пришел кандидат в компанию. Я условно поделил все источники на 'good' и 'bad'. К плохим отошли все, что связаны с джоб сайтами - они дают самых текучих кандидатов. По нашим данным (не претендую на репрезентативность выборки, вы у себя в компании сами проверите, гарантирую только то, что пришедшие с доб сайтов будут течь быстрее) пришедшие с доб сайтов имеют риски текучести в 1,3 раза больше, чем пришедшие со всех других источников вместе взятых.
Давайте мы будем рисовать гротеск - усугубим, так сказать, ситуацию. Тот чувак, который с высокой импульсивностью у нас придет через джоб сайт, в тот, что с низкой импульсивностью, у нас будет рефералом.
Прогноз текучести персонала на основе анализа дожития
Пыпыц....  Найдите 10 отличий с предыдущей картинкой....
Первый чувак теперь имеет 50 % вероятности доработать до 30 месяцев (было 36 при одной импульсивности), а второй чувак - реферал с низкой импульсивностью - ту же вероятность для 71 месяца.
Мы получаем риски для одного и для второго более чем в два раза.

Шаг 3. Плюс подразделение

А кроме того, наш анализ показал, что не все йогурты подразделения в компании одинаково полезны. И по степени риска я их опять поделил на хорошие и плохие. И первого чувака мы обязательно по сюжету нашего гротескного романа отправим в плохое подразделение с точки зрения йогурта текучести персонала, а второго в хорошее.
Прогноз текучести персонала на основе анализа дожития
И снова Пыпыц. Невооруженным взглядом видно, что через пять лет жизни в компании чуваки с высокой импульсивности, пришедшие через джоб сайт в плохие подразделения практический вымрут, а вот чуваки с высоким самообладанием, пришедшие рефералами в хорошие подразделения через пять лет еще не используют 50 % вероятность оттока.
Машина нам скажет точнее, и мы повторим, первый чувак имеет 50 % вероятность уйти в первые 17 месяцев работы (изначально было 36), а второй в 80 (было 54).

Шаг 4. Добьем наставником.

И в нашей компании есть избирательная система наставничества, которая также влияет на текучесть. Вы уже знаете, кому наствник достанется, а кому нет.
Прогноз текучести персонала на основе анализа дожития
Отсутствие наставника окончательно добило нашего первого чувака, и он с 50 % вероятностью покинет нашу компанию в течение первого года работы в нашей компании, и практически со 100 % вероятностью уйдет из компании в три года.
Второй же чувак, через три года, когда первый уже будет работать в другом месте (опять через джоб сайт), будет иметь 75 % вероятность остаться работать в нашей компании.

Практические выводы

Модель при всех ухищрениях все равно остается не очень хорошей - Concordance= 0.62. Она требует кросс валидации. И т.д. И т.п..
Но в целом, на основе даже вот таких факторов мы можем выстроить скоринговую модель отбора. И если мы не можем не взять чувака с высокой импульсивностью, пришедшего джобсайта, то как минимум, мы можем послать его в "хорошее" подразделение и/или дать ему наставника. Либо, как вариант, послать чувака с высоким самоконтролем - реферала в "плохое" подразделение или сэкономить на наставнике, если наши ресурсы ограничены.
Это уже управленческая практика. Но в любом случае, мы по истечении определенного срока, когда начали пользоваться скоринговой картой, должны проверять, что нам дала наша политика подбора - начинаем заново с шага №1.
Удачи вам во внедрении этого инструмента.




На этом все, читайте нас в телеграмме и вконтакте

пятница, 7 апреля 2017 г.

Статьи по hr-аналитике на английском 18

Представляю 18-й выпуск статей по HR-аналитике на английском.
Ранее уже писал, повторюсь, что подготовка выпуска серьезный труд: приходится перелопачивать кучу статей, бОльшая часть из которых хлам и мусор. И найти классную статью проблема. И кстати, западные ресурсы, посвященные HR аналитике, сталкиваются с той же проблемой - это заметно.
Тем не менее, стараюсь не снижать стандарты и даю лучшее.
Предыдущий, 17 выпуск, статей на английском по HR-аналитике вы найдете по ссылке Статьи по hr-аналитике на английском 17

Итак, статьи 18-го

  1. Shocking Insights on your ‘High-Performing’ Employees - я бы о шоках здесь не говорил, мне многие выводы кажутся логичными - может быть потому, что сам к ним иду. Вот цитата из статьи: “high-performing individuals have up to 20 percent larger internal network than their peers”. В нашем исследовании есть вопрос "Просим оценить интенсивность взаимодействия с коллегами.", который также показывает связь с бизнес-показателями, причем я могу аргументированно показать, что как минимум часть дисперсии это не корреляция, а причинность (см. Ключевые драйверы вовлеченности персонала (один из параметров)). Это не единственный вывод, вот как минимум крутая заявка the disconnection of high-performing employees with newcomers drives ineffective onboarding. Я не очень понимаю, как проводить анализ графов - связей в компании (не технически, а как собирать эти данные) - делать это через опрос или как-то иначе, но сама тема анализа связей очень популярна в HR-аналитике, рекомендую обратить на нее внимание.
  2. Top 20 HR Analytics articles: Jan & Feb 2017 - любимая многими форма статей обзора) Давил Грин делится лучшими статьями по HR аналитике начала 2017 года. Мне приятно, что бОльшая часть приведенных в его обзоре статей уже были в моих собственных обзорах, но я точно не согласен с рейтингом статей. Например, программная статья Raja Sengupta How Natural Language Processing can Revolutionize Human Resources поставлена в обзоре Грина аж на 15 место, хотя я в статьях 2017 года смело отвожу ей первое место. И это на самом деле связано с цитатой из статьи самого Грина ниже (где он цитирует “text analysis now is as easy to run as regression”). Ну и пусть это остается на совести Грина. 
  3. Key takeaways from Wharton People Analytics conference 2017 - Давид Грин, которого вместо Джона Салливана ХХ привезет на свою конференцию, поделился своими впечатлениями от конференции по HR-аналитике. И это очень важная статья с т.з. сравнения нашего и ихнего западного рынка hr-аналитики. Хотя Грин распинался о крутости конференции, я далеко не все доклады готов причислить к hr-аналитике, да и сама конференция выглядит странной, достаточно сказать, что ее открывал Malcolm Gladwell - неоднозначный тип, но если сравнить с докладами наших конференций по hr-аналитике, то по ссылке вы не найдете ни одного названия типа "какие HR метрики лучше всего", наши же конференции пестрят этими дерьмом названиями. И содержательно отмечу, что мы - я про российских hr-аналитиков, которых меньше, чем пальцев на руке, движемся в мировом тренде (см, например, Основные направления развития / задачи HR аналитики) - цитирую статью Грина “text analysis now is as easy to run as regression”.
  4. Hidden Gold in HR Reporting and the HR Dashboard - уважаемый мной ресурс обратился к метрикам и дашбордам, я пытался вытащить там предиктивные аналитики, не смог, поэтому хочу обратиться к тем, кто считает hr-метрики, hr-репортинг и дашборды hr-аналитикой, давайте проведем открытую дискуссию на эту тему? Вы и я выступим с докладом. Вы расскажете, как метрики влияют на бизнес показатели (ибо цель аналитики показать как данные HR влияют на бизнес, верно?), а я покажу,что это хрень неверно, и представлю свой взгляд, как перечень метрик нужно формировать (см. Как правильно выбирать HR-метрики). Но понятно, что никто не решится со мной на такую дискуссию. 
  5. Ну и в заключение обзора рекомендую посмотреть вакансию аналитика в обучении компании Merc Associate Director, Learning Analytics Job - резюмирую одним выражением: не боги горшки обжигают 

На этом на сегодня все, хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.

вторник, 4 апреля 2017 г.

Применение дисперсионного анализа на конкретном примере

В предыдущих статьях мы проводили сравнения двух групп (например, М и Ж, уволенных по собственному желания и по инициативе работодателя и т.д.) различными статистическими критериями. И если вы еще не читали данный материал, тогда рекомендую вам ознакомиться с ним:
Но, что делать, если у нас не две группы, а больше? В такой ситуации мы можем применить дисперсионный анализ.
Давайте это и сделаем!
Данные
Являясь адептом hr-аналитики, я еще и ярый сторонник энергоэффективности. Причем энергоэффективности не бумажной или теоретической, а реальной, практической энергоэффективности своего собственного жилья.
Многие ли из читающих данную статью, знают, сколько они потребляют электроэнергии в месяц в кВт*ч? А сколько в сутки? А сколько за день? А сколько за ночь? А есть ли разница между зимними и летними месяцами? И этот список вопросов можно продолжать.
Ответы на все эти вопросы могут помочь нам сделать свое жилье еще более энергоэффективным.
Последние 8 месяцев я веду детальный учет своего энергопотребления. За это время у меня собрался вот такой датасет.
Названия колонок говорят сами за себя, поэтому не буду останавливаться на этом.
Идея и гипотезы
Идея исследования состоит в том, чтобы поискать отличия в энергопотреблении в разные дни недели (т.е. мы имеем 7 групп). А также найти значимые отличия в энергопотреблении в различные месяцы (у меня есть данные за 8 месяцев).
В дисперсионном анализе у нас есть зависимая переменная – это количество потребляемой энергии и независимая переменная – день недели или месяц. По нашей независимой переменной мы будем делить выборку на несколько групп.
Давайте сформулируем наши гипотезы в дисперсионном анализе.
Нулевая гипотеза: Средние величины зависимой переменной во всех группах одинаковы.
Альтернативная гипотеза: Средние величины зависимой переменной в разных группах различны.
Идея исследования и Гипотезы
Идея данного исследования состоит в том, чтобы сравнить между собой различные месяцы, а также дни недели. Поскольку у нас есть данные за 8 месяцев, то у нас будет 8 групп. А также у нас есть 7 дней недели – 7 групп для сравнения.
С этой задачей как раз справиться дисперсионный анализ.
Знакомство с данными
Давайте для начала познакомимся с нашими данными и сделаем несколько визуализаций.
Посмотрим на общее потребление э/э по месяцам:
А теперь давайте посмотрим на соотношение потребления днем и ночью:
А теперь еще добавим день недели:
Идея №1. Месяц
Итак, у нас есть зависимая переменная Потребление э/э за сутки и независимая переменная Месяц.
Выполнив тест, получим следующие результаты:
Мы получили значимый результат, что свидетельствует о неодинаковом использовании э/э в разные месяцы.
Также мы можем построить график со средними значения по каждой группе с 95%-ми доверительными интервалами:


На таком графике мы можем хорошо видеть межгрупповые различия.
Однако не из расчета не из данного графика нельзя достоверно понять, какие именно месяцы различаются между собой.
Для этой задачи нам нужно провести тест на попарные различия между средними значения для всех групп:
Для тех пар, где в правой колонке p<0,05, там разница значима. Очевидно, что в таком виде результат не очень удобно интерпретировать. Поэтому давайте сделаем его более наглядным.
Вот так уже лучше. Те линии (синие), которые пересекают 0 (ноль), означают, что между двумя группами нет статистически значимой разницы. А вот зеленые и, особенно, красные линии заслуживают внимания, чтобы с ними подробнее разобраться.
Идея №2. День недели
Теперь давайте проведем дисперсионный анализ, разделив наши данные на группы по дням недели.
И построим график со средними значения по каждой группе с 95%-ми доверительными интервалами:
А теперь проведем тест на попарные различия между средними значения для всех групп и визуализируем результат:
Из графика видно, что все доверительные интервалы пересекают 0 (ноль), а это означает, что между парами групп нет значимой разницы.
Но давайте еще раз попробуем посмотреть на дни недели. Только в этот раз мы возьмем не суточное потребление, а дневное (т.е. с 7:00 до 23:00).
Тест на межгрупповые различия дает следующий результат:
Теперь мы получили значимый результат (р<0,05). Давайте взглянем, между какими именно парами у нас есть значимые отличия.
Выше мы уже видели такой график и знаем, как его интерпретировать. Смотрим на красные и зеленые линии, которые не пересекают 0 (ноль). Именно между этими парами и есть значимые различия. И во всех этих парах присутствует ПТ (пятница). Стало быть, именно пятница выбивается из общей картины.
 
Вывод
1. Если у нас есть больше двух групп для сравнения, мы можем использовать дисперсионный анализ.
2. Выполнив дисперсионный анализ и получив значимый результат, очень важно правильно найти пары, между которыми найдены значимые отличия. Для этого следует воспользоваться широкими графическими возможностями R.
3. Мы провели три теста, и нашли значимые различие между группами. Теперь нужно принять решения, на основе полученных данных, внедрить их и продвигаться дальше в вопросе энергоэффективности.

суббота, 1 апреля 2017 г.

Основные направления развития / задачи HR аналитики



Пост - резюме задач, решаемых HR-аналитикой. Резюме это сделано на основе
  1. Западных кейсов;
  2. Российской практикой;
  3. Кейсов машинного обучения и искусственного интеллекта из других областей.

Он-лайн курсы по HR-аналитике

  1. Принципы создания HR-дашбордов в excel
  2. Принципы создания и анализа корпоративных опросов
  3. Текучесть персонала по-новому: расчет среднего срока жизни в Excel
  4. Он-лайн курс "Введение в R для HR"



Это не значит, что российский рынок вот-вот начнет решать эти задачи HR-аналитики. Скорее не вот-вот. Но если ваша компания двигается в сторону HR-аналитики, вы будете решать эти задачи. В этой статье также нет единой классификации задач HR-аналитики. Ближе к такой классификации – хронология развития HR-аналитики. Время возникновения HR задач в аналитике, от более простого (но не менее важного), к более сложному. Также для классификации задач HR аналитики использовал методы аналитики.
Тем, кто в теме HR-аналитики, предложил бы использовать этот пост как дорожную карту развития HR-аналитики в компании. Пост получился объемным, несмотря на то, что я очень кратко старался описать все задачи, поэтому я даю вначале перечень задач HR-аналитики, и вы можете ограничиться прочтением только его:
  1. Прогноз эффективности работников
  2. Валидизация инструментов оценки 
  3. Прогноз текучести персонала
  4. Воронка подбора
  5. Оценка эффективности рекрутинговых компаний / оценка источников трафика
  6. Работа со студентами
  7. Fraud / мошенничество 
  8. Прогноз аварий
  9. Оценка эффективности обучения
  10. Создание рекомендательных систем в области обучения персонала
  11. Управление знаниями
  12. Создание команд
  13. Внутренний рекрутинг, кадровый резерв, лидерство
  14. Рекомендательные системы карьерного роста / профориентация 
  15. Workforce planning
  16. Вовлеченность персонала
  17. Мотивация персонала
  18. Анализ организационной системы через анализ графов 

Итак,