Блог про HR-аналитику: декабря 2016

пятница, 30 декабря 2016 г.

В какое время суток наиболее продуктивны импульсивные люди

Посвящение
Посвящаю пост Кате Орел, кандидату психологических наук из Вышки, девушке, которая мне лично симпатична, но которая почему то меня при случае пинает с удовольствием. Обещал ей посвятить пост о связи функций HR и тестов КТО и Большой пятерки, но у нас данных кот начихал, поэтому ждать Екатерине придется не быстро. Поэтому тот пост я обязательно посвящу, а этот просто бонусом.

Ну про сам пост

В прошлом посту В какое время суток лучше проходить психологические тесты я получил результаты, которые можно резюмировать следующим образом:

ночников (тех, кто проходил тестирование ночью) у нас всего 40, и я не уверен, что это не bias, поэтому рекомендую не смотреть на отклонения ночников.
если убрать ночников, то мы показали, что утренники, дневники и вечерники не показывают значимо различных результатов.
это не гарантирует отсутствия индивидуальных рекомендаций, но сами индивидуальные рекомендации я пока обозначил в самом общем контуре, это даже не гипотеза, а приглашение подумать. Т.е. по простому: мы на основании полученных результатов еще не можем сказать: проходите, когда вам удобно, поскольку какие-то индивидуальные особенности могут влиять на успешность прохождения тестов, и, соответственно, возможны, индивидуальные рекомендации по времени прохождения тестов.
эти самые индивидуальные рекомендации по времени прохождения тестов возможны, если найдем психотипы (например тупо взять шкалу импульсивности, поделить на ниже и выше медианы и посмотреть результаты КТО этих двух групп утром, днем и вечером). Но это во многом интуитивная работа, количество возможных версий и гипотез мама не горюй, поэтому я пока не знаю, как найти принцип.

Собственно, на данное резюме меня подвинул Виталий Алтухов в комментах к предыдущему посту, и спровоцировал меня на этот пост.

Сами результаты

Мне бы хотелось понять, как создать сам принцип выделения индивидуальных особенностей, чтобы не делать кучи работы впустую, но ждать можно до морковкиного заговения, помощь не придет, поэтому я решил гипотезу про импульсивных проверить.
Моя гипотеза была очень простой: я предположил, что нервная система импульсивных товарисчей более слаба, чем у людей с противоположным качеством - Самоконтролем, что люди с самоконтролем показывают более стабильные результаты деятельности в течение рабочего дня, чем импульсивные. А импульсивные быстрее разряжаются. Следовательно, импульсивные показывают более высокие результаты утром.
Проверка
Я поделил выборку респондентов на две группы:

0 - импульсивные, показатели по шкале "Импульсивность - Самоконтроль" ниже или равно медиане, всего 468 респондентов;
1 - самоконтрольные, показатели по шкале "Импульсивность - Самоконтроль" выше медианы, 348 респондентов.

Далее я посмотрел показатели этих двух групп в сравениии между собой и по времени суток: утром, днем и вечером (как я делил по времени суток читай в посте В какое время суток лучше проходить психологические тесты). Результаты на картинке:

В какое время суток наиболее продуктивны импульсивные люди

'overall' - Общая шкала по КТО,
'verbal' - вербальнй IQ,
'erudition' - эрудиция,
'numerical'- числовой IQ,
'data processing' - обработка информации.

Мы видим, что за исключением диаграммы по шкале "Обработка информации", результаты везде идентичны. А вот конфигурация диаграммы "Обработка информации" очень похожа на нашу гипотезу: у импульсивных людей обработка информации вечером имеет более низкие результаты, чем утром и днем, а у людей с самоконтролем обработка информации западет утром.
Остается определить значимость различий. Наш старый добрый Краскел Уолисс говорит нам: KruskalResult(statistic=6.3022472186721323, pvalue=0.27790981235437723)
И здесь я обращаюсь к импульсивным людям: да проходите тесты, когда вам угодно: утром, днем или вечером. Если мы примем результаты теста КТО за показатель продуктивности умственной деятельности, то можно сделать более важное заявление: продуктивность импульсивных людей не меняется с изменением времени суток.
Этот пост, безусловно, первый слепой шажок в сторону выявления индивидуальных особенностей прохождения тестирования, буду благодарен за ваши соображения по поводу того, какие еще гипотезы можно проверить.

Понравился пост?

участвуйте в исследовании!

четверг, 29 декабря 2016 г.

В какое время суток лучше проходить психологические тесты

Ровно год назад я уже делал такое же пост В какое время суток лучше проходить психологические тесты. Но:

тогда данных было значительно меньше;
я делал в прошлый раз в Rstudio, теперь в Python;
в этот раз я расширил решения по визуализации.

Данные для поста взяты из нашего исследования факторов текучести персонала (пройдите по ссылке и поучаствуйте!). Прошедшие опрос бонусом могут пройти батарею тестов Лаборатории Гуманитарные Технологии, в батарее два теста, состоящие из десяти шкал (оригинальное название шкалы слева, поскольку оно довольно длинное, я перекодировал для вставки в диаграммы, перекодированное значение идет справа):

'Ш1: "ОБЩИЙ БАЛЛ"' - 'overall',
'Ш2: "ВЕРБАЛЬНЫЙ IQ"' - 'verbal',
'Ш3: "ЭРУДИЦИЯ"' - 'erudition',
'Ш4: "ЧИСЛОВОЙ IQ"' - 'numerical',
'Ш5: "ОБРАБОТКА ИНФОРМАЦИИ"' - 'data processing',
'Ш6: "ИНТРОВЕРСИЯ - ЭКСТРАВЕРСИЯ"'- "интро-экстра",
'Ш7: "НЕЗАВИСИМОСТЬ - СОГЛАСИЕ"' - 'независимость',
'Ш8: "ИМПУЛЬСИВНОСТЬ - САМОКОНТРОЛЬ"' - 'импульсивность',
'Ш9: "ТРЕВОЖНОСТЬ - СТАБИЛЬНОСТЬ"' -'тревожность',
'Ш10: "КОНСЕРВАТИЗМ - НОВАТОРСТВО"'-'консерватизм'.

Проблема была только в том, что участники были из разных часовых поясов, а время тестов было указано московское, поэтому пришлось привести в единое временное поле. И я все использовал такое округление: если время начала теста указано как 11:53:27, я указывал начало теста как 11 часов.

Распределение по часам

На картинке распределение респондентов в зависимости от часа начала прохождения теста. Пик приходится на сразу после обеда, но есть чувак, который в три ночи проходил тест.

Время суток

Поскольку у нас явно недостает данных, чтобы показать значимость различий по часам, я перевожу часы в промежутки "Время суток". Взял промежутки из Википедии:
0-5 - ночь;
6-13 - утро;
14-17 - день;
18-23 - вечер.
Распределение получилось таким

Ночное время явно нас не радует, будет относится к нему с осторожностью.

Основные результаты

Отдельно дам картинку по шкалам КТО (тест способностей) и Big5 (личностный опросник)

КТО

На картинке по каждой из шкал теста КТО даный общие результаты в разрезе времени суток. Медианные значения по шкалам идентичные, не считая отклонений ночников, при этом общий результат по КТО (шкала 'overall') имеет почти 100 % совпадения по времени суток.
И заметьте, какие общие высокие значения по шкале обработка данных.
Если кто-то желает проверить различия результатов теста по критерию Краскелл Уоллис, я могу предоставить данные.

Big5

Шкалы личностного теста показывают аналогичную картину. Ну разве что ночников можно отнести к более импульсивным. Шутка.

Одна мысль

И можно было бы спокойно сказать вам: да проходите тесты тогда, какой вашей душеньке угодно, но я подумал, а вдруг, например, импульсивные респонденты показывают более высокие результаты по числовому интеллекту утром, а стабильные вечером? У меня нет конкретных гипотез, жду я от вас конкретных гипотез, а пока для создания гипотез даю вот такую визуализацию

Можно кликом увеличить диаграмму. Даю сразу десять шкал обоих тестов, а цвет точек обозначает время суток. Что дает эта диаграмма?

Во-первых, мы можем посмотреть на корреляции шкал тестов между собой, заметно, что шкалы теста способностей коррелируют между собой, и некоторые шкалы личностного опросника коррелируют, например, люди импульсивные имеют тенденцию быть больше новаторами, чем консерваторы, а консерваторы более склонны к самоконтролю и т.п..
Во-вторых, если моя гипотеза была бы верна, то на пересечении импульсивность - числовой тест в левой верхний части должны преобладать синие точки (утро), а в правой верхней вечерний цвет. Но я нифига этого не вижу, а вот вы мне можете написать про ваши гипотезы, а мы это проверим не через картинку, а математически.

__________________________________________________________
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте

вторник, 27 декабря 2016 г.

Статьи по hr-аналитике на английском 11

Одиннадцатый и последний в этом году выпуск дайджеста статей по HR-аналитике на английском. Последний выпуск Статьи по hr-аналитике на английском 10 (через эту статью вы сможете найти все выпуски дайджестов) был 18 декабря.

Конец года время подведения итогов, поэтому пост в некотором смысле резюмирующий:

10 predictions for HR in 2017 - Если вы читали раньше мои дайджесты статей по hr-аналитике, то имя автора вам знакомо, если нет, посмотрите предыдущий дайджест. Давид Грин одним из первых дал свой прогноз на следующий год. Резюмирую пост коротко: must read. Для аналитиков это не просто некие теоретические измышления, они наполнены направлением работы, как например, HR programs begin to shift from the individual to focusing on teams.
В тему прогнозов 2017 даю статью Джоша Берзина (куда без него?), статья старая уже, написана в октябре, но интересно сравнить с прогнозом Грина - HR Technology in 2017: A Disruptive Year Ahead.
The 40 best HR Analytics articles of H2 2016 - и тот же Давид Грин бросает свой взгляд не в будущее, а в прошлое и список лучших статей по hr-аналитике 2016.
Highlighted Analytics Articles from 2016 - Трейси Смит Tracey Smith подвела свой список наиболее важных статей 2016 по hr-аналитике.
И в тему лучших статей 2016 повторю ссылку на статью -The 22 best HR Analytics Articles of the Year 2016 ( Machine Selected & Human Enriched ) - автор Raja Sengupta - один из лучших среди тех, кто руками, а не языком. И список составлен на на основе его личных предпочтений, а на основе машинного алгоритма.
How People Analytics Reinvented Employee Engagement Surveys At Google - этот чувак, Steffen Maier, покусился на святое - на опросы в HR. Приведу цитату из статьи автора: "Employee Engagement Surveys are the business equivalent of giving the prisoners in a penitentiary a survey to complete once a year and slide through the bars of their cells. The survey process cements an unequal power relationship.". Кому-то статья поможет взглянуть по новому на использование данных исследований и опросов.

С учетом того, что две ссылки сами дают ссылки на статьи, а статья Давида Грина про прогнозы тоже склад интересных ссылок, я заканчиваю на сегодня.

Понравился пост?

понедельник, 26 декабря 2016 г.

Юбилеи и годовщины как риски текучести персонала

В газете Ведомости вышла недавно статья Как вычислить сотрудников, собирающихся уволиться. В статье описывался опыт управления текучестью на основе машинного обучения, среди прочего там была такая фразу:

В канун годовщин работы в компании или перехода на текущую должность активность поиска работы повышается на 6 и 9% соответственно. Но вскрылись и факторы, не относящиеся напрямую к работе. Это, например, дни рождения – особенно такие важные вехи, как 40 и 50 лет.

Меня эта фраза зацепила. Захотелось проверить корректность этих утверждений для России. Мое преимущество в том, что у меня есть данные для проверки таких гипотез. У вас они же есть: пишите мне, я поделюсь с вами данными, сможете проверить сами любые гипотезы. Но в любом случае приглашаю пройти наше исследование Ключевые факторы текучести персонала.
В вышеуказанном тексте два утверждения, разбираю последовательно

Дни рождения – особенно такие важные вехи, как 40 и 50 лет

Ниже представлена гистограмма увольнения респондентов по возрасту. Здесь представлены увольнения только по инициативе работника.

Юбилеи и годовщины как риски текучести персонала

Я специально выделил вехи в 40 и 50 лет. Заметно, что, по крайней мере, 40 летняя веха выдается над соседними годами. С другой стороны, у нас рядом есть 37 и 38 летние вехи, которые тоже вроде как выдаются над соседними годами. И главная проблема данного анализа - мы не можем применить простой и понятный инструмента - карты Шухарта (а по русски - отклонение выбросов от среднего) по той причине, что у нас возрасты распределены не равномерно, не как масло на бутерброде, а очень неравномерно.
Резюме: мы должны понять, как считать ожидаемое количество увольнений.
У меня родилась такая идея (воруйте идею): я вычисляю медиану стажа этих респондентов, далее я к возрасту трудоустройства прибавляю эту медиану стажа и получаю ожидаемое распределение увольнение по возрасту. Если вы не согласны или готовы предложить своб методику расчета ожидаемого распределения - буду рад услышать.
У меня получилась вот такая картина.

Становится очевидным, что 40 летний рубеж на самом деле отличается от тренда, и мы не отклоняем утверждение компании СЕВ, но с другой стороны 37 и 38 летние увольнянты тоже выбросы. Поэтому утверждение про 40 летних на фоне 37 и 38 летних немного блекнет.

В канун годовщин работы в компании или перехода на текущую должность активность поиска работы повышается на 6 и 9% соответственно

Сразу предупреждаю, тут я получил какую интересную хреновину.
Во-первых, пришлось почистить от мусора, во вторых, я убрал всех со стажем меньше полугода (ну это тоже мусор, поскольку им не дожить до своей годовщины). А дальше следите за руками шулера: я взял дату увольнения как порядковый номер даты года (т.е. 1 января будет номер 1, 31 декабря будет номер 356) и отнял из нее порядковый номер даты трудоустройства.
Для любителей Python дарю код

df['diff'] = pd.to_datetime(df['Дата увольнения ']).apply(lambda x: x.dayofyear) - 
pd.to_datetime(df['Дата трудоустройства']).apply(lambda x: x.dayofyear)

Гипотеза проста: дата увольнения и дата приема никак не связана, и распределение будет как масло на бутерброде - равномерным или однородным. Типа как на картинке

Т.е. если вы трудоустроились в июне, то уволится вы можете с равной вероятностью в мае, том же июне и феврале. Но я получил вот такую картинку

По оси X - число дней разницы (в абсолютном значении - по модулю) между днем трудоустройства и днем увольнения.
Никак не похоже на однородное распределение.
Как это объяснить?
Единственный подвох я вижу в плохой памяти респондентов, которые на глазок заполняют даты трудоустройства и увольнения, и неосознанно сближают эти даты...
ПОЭТОМУ! Жду от вас (edvb@yandex.ru) ваши данные по трудоустройству и увольнению. Формат файл excel, который содержит две колонки: дата трудоустройства и дата увольнения. И ессессно речь идет только о добровольной текучести: работники сами принимают решение об увольнении.
Но как минимум мы не опровергли утверждение чуваков из CEB, а как максимум мы вышли на важный предиктор текучести персонала.
Ну а я разве не заслужил награды?

__________________________________________________________
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте

И участвуйте в исследовании!

воскресенье, 25 декабря 2016 г.

Кто может рассчитывать на благодарность руководителя

В нашем исследовании (пройдите по ссылке и поучаствуйте в исследовании) был вопрос: Благодарил ли Вас Ваш руководитель за достижения? с четырьмя вариантами ответов:

Да, практически все достижения были отмечены моим руководителем;
Если не все, то многие;
Получал лишь изредка ;
Нет.

Я взял для простоты анализа два крайних варианта: "Да, практически все достижения были отмечены моим руководителем" и "Нет" и проанализировал, какие переменные влияют на то, что руководитель отмечает все наши заслуги или ~~же совсем нас не замечает~~ не благодарит. Выборка и по крайним вариантам получилась неплохая:

864 респондента отметили, что руководитель отмечает все их заслуги;
832 - совсем не отмечает

Тема эта крайне важна, поскольку Благодарность руководителя в другом моем анализе - самый важный фактор, влияющий на текучесть персонала Почему подчиненные уходят от руководителей. И управление благодарностью является частью программы удержания персонала.
Почти поровну, а значит выборка почти идеально сбалансирована.
Начну с показателей качества модели

Кто может рассчитывать на благодарность руководителя

Качество неплохое, но не забываем, что я взял два крайних вариант - самых хороших и самых плохих руководителей, а промежуточные варианты нам размоют эту точность, и на практике модель будет совсем другой. И тем не менее, в исследовательских целях, для выявления драйверов благодарности руководителя, этот результат совсем неплох.

Факторы

Я показываю только топ факторов (кликните на картинку для увеличения масштаба). Для меня много неожиданного. В первую очередь, высокая важность психологических качеств респондента. При этом, обращаю ваше внимание, "благодарит" / "не благодарит" не объективная картинка, а ответ респондента, Поэтому корректная формулировка звучала бы так: "какие переменные определяют выбор ответа респондента "благодарит" / "не благодарит"".
Для аналитиков скажу, что, конечно же, я делал скейлинг переменных, все переменные в масштабе от 0 до 1.

Возраст

Жаль, что не хватает картины со стороны самих руководителей, но более возрастные респонденты указывают, что их благодарят реже. Медианная разница в пять лет - ничего себе разница так то.

Общий балл

Имеется ввиду общий балл по тесту способностей, почти IQ.

Прикольно, правда? Умных руководители благодарят реже. Я думал, что такой результат связан с тем, что интеллект связан с возрастом: более зрелые имеют более высокие показатели способностей, а поскольку более зрелых реже благодарят, то интеллект опосредует благодарность. НО! Коэффициенты корреляции пирсона и спирмена показывают всего-то 0, 07 и 0, 06 значение, поэтому за связью показателей Общей шкалы способностей и благодарностью со стороны руководителя стоит другое объяснение. Как вариант: умные лучше отличают благодарность от манипуляции. Жду ваших вариантов объяснения, почему руководители благодарят умных реже.

Независимость - Согласие

Здесь картина вполне согласуется со "здравым смыслом" - склонных к своему мнению, независимости руководители благодарят реже.

Интроверсия Экстраверсия

Этот результат мне не очень понятен, экстраверты чаще получают благодарности, но при этом, как я показал в другом исследовании, они более склонны к текучести. Получил благодарность и пошел дальше?
Или интроверты просто не замечают благодарности?

Импульсивность - самоконтроль

И еще одна странная картина: склонные к самоконтролю реже получают благодарность. Такие дела, брат.

Пол руководителя - пол подчиненного

По оси X: 1 - руководитель благодарит подчиненного, 0 - нет
По оси Y отношение полов подчиненный - руководитель. Первая буква - пол подчиненного, вторая - руководителя.
в ячеек - % от суммы по строке.

Т.е. заметно, что чаще всего благодарит подчиненного мужчину женщина руководитель, реже всего мужик мужика. А вы говорите, женский коллектив.....

И последнее. Задержки руководителя

Имеется ввиду, вопрос "Задерживался ли ваш руководитель на работе"

Логика диаграммы, как выше. Отличия заметны. Ау, руководители! Организуйте работу так, чтобы работники не оставались после вашего ухода на работе!

И вот такая картинка

По оси X - Общий балл по тесту способностей;
по оси Y - возраст
Синие точки - респонденты указали, что руководитель все их заслуги подчеркивает, красные - ни одной благодарности.

По концентрации точек (лень делать decision tree) заметно, что если вы до 30 лет с показателем по интеллекту 6-7,5 баллов, то благодарность руководителя вам обеспечена!
Но если вы старше 30 с высоким интеллектом, интроверт с собственным мнением, да к тому же ваш руководитель - мужчина, то не ждите благодарности!

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.
Или сделайте перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования".
И участвуйте в исследовании!

вторник, 20 декабря 2016 г.

Как аналитика может помочь в оценке эффективности мастер-класса?

Все расчеты и визуализация сделаны в R.

Идея эксперимента состояла в том, чтобы проверить насколько эффективным является мастер-класс по развитию навыка Скорочтение.

Данный мастер-класс выбран по той простой причине, что мы можем очень легко получить точные замеры по скорости чтения «до» мастер-класса и «после» его прохождения.

Коротко обо всех этапа эксперимента

Мастер-класс по развитию навыка Скорочтение длится 2 часа. За это время участники знакомятся с основными идеями скорочтения, а также выполняют два упражнения. Одно упражнение на развитие скорости чтения. Второе ─ на развитие навыка понимания прочитанного.

Очень важно, что в самом начале мастер-класса делается замер скорости чтения (т.е. слов в минуту) каждого участника.

После этого участникам выдается форма Отчет о прогрессе, с которой им предстоит работать следующий месяц.

Идеальная ситуация, когда упражнения выполняются 6 дней в неделю. Для этого необходимо ровно 30 минут в день. Итого: 6 х 4 = 24 занятия за месяц.

После месяца работы над развитием навыка Скорочтение, участники заполнили новые анкеты, где они отметили, сколько дней занимались, а также сделан замер скорости чтения после месяца занятий.

Итак, что мы можем посмотреть для начала?

Давайте визуализируем наши данные, которые мы собрали из анкет «до» мастер-класса.

Пол

Боксплот, который показывает переменную скорость чтения, в зависимости от пола (женщина/мужчина).

Тот же показатель, только на диаграмме плотности. Мы видим кривую по женщинам и мужчинам.

Давайте проверим нашу первую гипотезу, например, о том, что женщины читают быстрее, чем мужчины.

Расчет t-критерия Стьюдента показала следующие результаты:

t = 0.55124 и p-value = 0.2919.

Т.е. мы не можем отклонить нулевую гипотезу, а соответственно статистически значимой разницы между скоростью чтения женщин и мужчин нет.

Взаимосвязи

В анкетах, которые участники заполняли «до» мастер-класса, есть информация о количестве прочитанных книг за этот год (за 10 месяцев этого года). Эта информация может нам помочь ответить на вопрос: Читает ли больше книг, тот, кто читает быстрее? Давайте для начала построим диаграмму рассеивания, где по Х – будет отражена скорость чтения (слов в минуту), а по Y – количество прочитанных книг за этот год. А также добавим линию тренда.

Мы видим положительную взаимосвязь. Т.е. при увеличении скорости чтения, увеличивается количество прочитанных книг.

Давайте теперь рассчитаем коэффициент корреляции.

Пирсон: t = 2.7073, p-value = 0.009157, cor = 0.3514813

Спирмен: S = 16326, p-value = 0.004868, rho = 0.3776915

Т.е. мы можем сделать вывод о наличии небольшой положительной корреляции на уровне 0,35-0,38. Данный показатель корреляции статистически значим (p-value < 0), что показали различные тестs (Пирсон, Спирмен).

Теперь давайте построим простую регрессионную модель с одним предиктором. Где количество прочитанных книг это зависимая переменная, а скорость чтения будет предиктором.

На рисунке мы можем видеть формулу, которая описывает нашу модель. Из нашей модели видно, что скорость чтения, слабенький предиктор (R² = 0.124) для количества прочитанных книг. Для улучшения модели можно было бы добавить и другие предикторы, но это уже выходит за рамки данного эксперимента.

Данные «после» мастер-класса

Прошел месяц, и участники заполнили анкету о том, как они занимались весь месяц, а также сделали замер своей скорости чтения за 1 (одну) минуту.

Теперь мы можем ответить на главный вопрос данного исследования: Изменилась ли скорость чтения наших участников мастер-класса после его прохождения?

Для такого сравнения мы будем использовать парный t-тест. Важно отметить, что в данном расчете участвуют данные только по тем участникам, которые занимались по методике хотя бы 6 дней.

Критерий Стьюдента: t = -3.3827, p-value = 0.009603

Критерий Вилкоксона: Z = -3.4776, p-value = 0.0005059

Т.е. мы можем сделать вывод о том, что замеры скорости чтения у одних и тех же участников, «до» мастер-класса и «после» обучения по методике, значимо отличаются. Данный вывод хорошо виден и на графике боксплот.

Другими словами, мы можем сделать вывод о том, что мастер-класс действительно помогает увеличить скорость чтения его участников.

воскресенье, 18 декабря 2016 г.

Статьи по hr-аналитике на английском 10

Десятый выпуск дайджеста статей по HR-аналитике на английском. Последний выпуск Статьи по hr-аналитике на английском 9 (через эту статью вы сможете найти все выпуски дайджестов) был 13 декабря.

Не успел я в прошлом выпуске дать первую часть поста Давида Грина, как он в тот же день опубликовал вторую часть. Поэтому даю обе части: 20 (more) People Analytics Case Studies - Part I и 20 People Analytics Case Studies - Part II. Также напоминаю, что я Давиду Грину (его постам) посвятил отдельный пост David Green. Существует ли HR аналитика. Кстати говоря, все кейсы Давида Грина выпустили отдельной книгой за 75 баксов, вы имеете возможность прочитать их бесплатно. Вы мне должны: кликайте директ рекламу в блоге.
Но вообще этот дайджест надо было начать со статьи How Artificial Intelligence Will Redefine Management - может быть не самая лучшая статья по теме, но одна из первых по теме Artificial Intelligence и Искусственного Интеллекта в менеджменте. А Artificial Intelligence это уже больше, чем Большие данные, больше, чем Машинное обучение. И тема эта сейчас - главный тренд в HR аналитике. Следим.
21 Employee Performance Metrics - многие знают мою не любовь к метрикам, но в данном случае речь не про метрики в обычном hr понимании, это 21 способ измерения эффективности работников. В качестве словаря.
Popular Data Science Books Every Data Scientist Must Read - это статья для тех 1) кто изучает аналитику и 2) кто изучает аналитику в R/Rstudio. Для меня книга про Введение в Статистику Тревора Хати с командой уже просто теплая и приятная ностальгия.
SAS, R, or Python Survey 2016: Which Tool Do Analytics Pros Prefer? - а это про то, какие инструменты аналитики наиболее популярны)
How the State of Indiana uses R and Azure to forecast employment - ценная статья с т.з. методологии прогноза. Используют временные ряды и не только. И еще: представьте себе, как Красноярский край использует R для прогноза рабочей силы в крае?

Все на сегодня.

Понравился пост?

Распределение HR по отраслям в зависимости от пола

Не секрет, что поле деятельности в HR-сфере традиционно преимущественно за представительницами прекрасной половины человечества, тем не менее задался вопросом о том существует ли какая-либо закономерность в выборе HR-ами отрасли в зависимости от пола?

На основе датасета Эдуарда Бабушкина получаем следующие данные:

1. Для того чтобы увеличить размерность произведена группировку близких отраслей:

-Образование и культура = ВУЗ + культура и искусство + наука и образование;

- Бюджетная и некоммерческая сфера = здравоохранение, физическая культура и социальное обеспечение + государственные органы управления + некоммерческие организации;

- Производство = промышленность, энергетика, добыча сырья, сельское и лесное хозяйство;

- Сервис и торговля = оптовая торговля + розничная торговля + отели и туризм + недвижимость + общественное питание.

2. Вычисление критерия Хи2:

Число значений меньше 5 = 4%

Хи2= 0,000462782 – различия статистически достоверны.

3. Интерпретация результата:

Пол является статистически значимым фактором для выбора HR-ом сферы деятельности предприятия. Так, к примеру, большая доля мужчин HR-ов занята в банковском секторе и производственных компаниях. В то время, как большая доля HR-ов женщин в ИТ, консалтинге, сервисных и торговых компаниях. Но это конечно всё со сноской на явное количественное преимущество женщин в HR-сфере по отношению к мужчинам.

суббота, 17 декабря 2016 г.

Семейный статус мужчин и женщин в разрезе возраста и зарплаты

В одном из прошлых постов Загадочная женская душа в HR-исследовании я установил, что женщины значимо чаще в сравнении с мужчинами указывают свой семейный статус как "Гражданский брак". В качестве гипотез, объясняюущих разницу, я выдвинул следующее:

Дамы более серьезно относятся к отношениям и указывают "гражданский брак" там, где для мужчины это способ прикорма;
Либо дамы просто стесняются указывать свой свободный статус в исследовании.

Сегодня я сделал несколько картинок, проливающих свет на ситуацию с семейным статусом мужчин и женщин. Обратите внимание, я не называю пост анализом, это просто несколько картинок / диаграмм.

Возраст

Во-первых, меня заинтересовало, в каком возрасте проходит водораздел семейных статусов. Но здесь я сразу оговорюсь, что у меня нет даты вступления в брак, у меня есть семейный статус на момент трудоустройства, поэтому на самом деле семейный статус "Женат" будет левее. И очень важно, что мужчины - респонденты опроса - более зрелые, более возрастные (красным - про мужчин)

Мужчины

Медиана для женатых - 38 лет,
Для гражданского брака - 32,
Холостые - 29.

Женщины

Медиана для замужних - 36 лет,
Для гражданского брака - 32,
Холостые - 29.

О как! таким образом, женщины отличаются от мужчин только тем, что семейный статус замужней на два года моложе статуса женатого у мужчин. Но поскольку у нас мужчины изначально более зрелые в исследовании, а мы фиксируем не дату свадьбы, а дату трудоустройства и семейный статус на момент трудоустройства, то различия вполне себе могут объясняться этим фактом.
Но в любом случае наша гипотеза про то, что гражданский брак - промежуточная стадия между свободным семейным статусом и штампом в паспорте пока не отклоняется (но и не доказана еще).

Зарплата

Я взял только российских мужчин и женщин.

Мужчины

Зарплата в тысячах рублей

Медиана женатых - 75,
Гражданский брак - 42. 5,
Холостые - 40.

Женщины

Медиана замужних - 40 тысяч рублей,
Гражданский брак - 35,
Холостые - 30.
Нельзя не заметить тот факт, что разрыв зарплате женатых и прочих мужчин значительно больше, чем для тех же категорий у дам. Но очевидно же, что исходя из данной диаграммы, мы не можем утверждать, что более богатые чаще женятся, по той простой причине, что женятся в более зрелом возрасте, а зарплата в более зрелом возрасте выше. чем у молодых.

2 - D графики

И еще графики

Мужчины

По оси X - зарплата,
Ось Y - возраст,
Цвет точек - семейный статус.

Чем мне нравится эта диаграмма? Посмотрите на мужчин в возрасте 30-35 лет (а также 20-25 и 35-40). Заметна тенденция того, что семейный статус для мужчин - экономическая категория.

Женщины

Посмотрите на милых дам в возрасте 30-35. Согласитесь, что определить здесь семейный статус с помощью зарплаты значительно сложнее.
Итого
Меня эти картинки наводят на мысль, что мужчины может быть и не такие сво, а женятся в тот момент, когда способны прокормить семью, а гражданский брак это переходная стадия от холостяцтва до штампа не только по возрасту, но и по доходу. У женщин все сложнее, женщина указывает гражданский брак далеко не всегда в связи с заработками.
И я, безусловно, буду рад вашим соображениям по поводу картинок.

Дамы! (и не только) Понравился пост?

среда, 14 декабря 2016 г.

Индикатор рынка труда: динамика приема HR в разрезе отраслей

И снова результат нашего исследования, перейдя по ссылке, вы сможете свой голос отдать на благо валидизации результатов.
Индикатор я придумал случайно.
Просматривал результаты исследования и обратил внимание, что в прошлых моих исследованиях значительно чаще принимали HR из IT отрасли, см. например Актуальные направления работы HR вашей организации - 2012-2013. А в нынешнем, ключевом и глобальном исследовании распределение HR по отраслям выглядит так.

Для тех, кто работает в Python, может пригодиться код, как я поставил лейблы посреди строчки

 for p in ax.patches:
    bl = p.get_xy()
    x = 0.5*p.get_width() + bl[0]
    y = 0.7*p.get_height() + bl[1]
    huy = p.get_width()
    ax.text(x,y, '%1.0f'%(huy),  ha='center')

К диаграмме вы дописываете этот код. Не откажусь от нескольких кликов по директ рекламе в счет выражения благодарностиза код.
HR в IT у нас попади только на четвертое место, выпав даже из призеров. Игорь Бычков мне подсказал идею: может дело в том, что проснулись остальные отрасли. Вот так я вышел на мысль про индикатор рыка труда: динамика приема HR в разрезе отраслей

Эта диаграмма - - сводная таблица с нормированием по столбцам, т.е. по годам.

в 2012 году чуть не каждый второй HR шел работать в промышленность.
В 2015 году резко упал набор в банки, что вроде интуитивно понятно.
Каждый третий в 2015 году шел в торговлю розничную, вырос спрос в ИТ.

Я исхожу из простой мысли, что HR участвуют в исследовании рандомным образом, без смещения в какую-то из отраслей. В любом случае, канады привлечения к голосованию не предполагают какого то смещения в сторону одной / нескольких отраслей. Можно только предположить, что москвичи участвуют активнее, а в Москве больше банкиров, но вы видите, что банки по 2015 году проседают.
Здесь не хватает других отраслей и 2016 и более ранних годов - участвуйте активнее в опросе, чтобы хватало.
Что нам дает такой индикатор? Это косвенный показатель развития экономики России, если хотите. Санкции против России были введены в 2014 году, но мы не видим роста HR в промышленности, если бы хотели заметить увеличение политики импортозамещения. Увеличение доли HR в IT говорит о росте этой отрасли, и 2015 год доказывает это.
Либо скажите, что моя логика хромает)
В любом случае индикатор будет полезен консалтинговым компаниям, работающим с отраслевыми продуктами. И HR, планирующими свою карьеру.

Понравился пост?

вторник, 13 декабря 2016 г.

Статьи по hr-аналитике на английском 9

Девятый выпуск дайджеста статей по HR-аналитике на английском. Последний выпуск Статьи по hr-аналитике на английском 8 (через эту статью вы сможете найти все выпуски дайджестов) был 2 декабря.
Сегодня у нас день индийского кино. Шутка. Представляю статью индийского HR аналитика Raja Sengupta

The 22 best HR Analytics Articles of the Year 2016 ( Machine Selected & Human Enriched ) - фишка, как вы уже заметили, в том, что статьи отбирали не эксперты, а алгоритм машинного обучения. Сапожник с сапогами. Рекомендую его статьи, он не пишет бла бла бла тексты, а только результаты своих исследований, но его посты сложны для понимания порой. Кроме того, что более важно, буквально сегодня он анонсировал сервис Personal career recommendations, это очень крутая штука, я с ним немного общался на эту тему, спецы понимают, что это, для остальных про технологию, заложенную в сервисе можно почитать здесь Netflix как система подбора персонала и создания команд.
A Combined Text Analytics – The Best HR Analytics Articles of 2014 &15 - еще одна статья Raja Sengupta
20 (more) People Analytics Case Studies - Part I - Давид Грин начала новую серию кейсов по HR аналитике. Реальные компании, реальные кейсы. Когда меня сегодня "HR-аналитик" одной крупной компании спросил, разве есть кейсы по предиктивной аналитике, я ему статью Грина скинул. Предыдущие кейсы читайте здесь David Green. Существует ли HR аналитика (по ссылке еще куча статей автора).
Extended Tutorial: How to Predict Employee Turnover - это исключительно инструментальная штука: код в R, как управлять текучестью персонала на основе данных.
HR 2017: Bersin by Deloitte Predictions for the Year Ahead - куда же без Берзина, хотя и не статья это. По ссылке вы сможете зарегистрироваться на вебинар Джоша Берзина про тренды и прогнозы рынка HR 2017 года. Джош по традиции будет рассказывать про очередные взрывы и пожары на рынке.
И в конце новость - Rumors Are Floating About A Cornerstone OnDemand Sale - Cornerstone OnDemand изначально платформа LMS, но давно вышла за рамки дистанционного обучения. И не декларативно как наши, российские платформы, которые пока щеки надувают, а на самом деле, включая такой сервис, как отбор персонала через он лайн сервис. И вы, например, могли читать эту статью Браузер скажет о кандидате то, что не скажет уровень учебной успеваемости - это результаты Cornerstone OnDemand. Эта же платформа купила в свое время компанию Evolv, сделавшую прорывное исследование факторов текучести персонала. Без этого исследования я бы точно не состоялся как аналитик. А ко фаундером Evolv был небезызвестный нам Ласло Бок (см В Head-Hunting Big Data может быть не такой уж сложной задачей и re:Work - кейсы, исследования, идеи от Ласло Бок).

Все на сегодня.

Понравился пост?

понедельник, 12 декабря 2016 г.

Новая порция книг по анализу данных от издательства ДМК Пресс

Сегодня получил новую порцию книг по анализу данных от издателства ДМК Пресс, делюсь (все ссылки даются на Озон, внизу даю контакты издательства и рекомендую его тем, кто занимается анализом данных):

Визуализация данных с помощью ggplot2 - книга Сергея Мастицкого. Мне даже как -то неудобно рассказывать, кто такой Мастицкий и что такое ggplot2. Книгу пролистал, очень проста и понятна в понимании. Хочу ее разыграть в своей группе за лучший пост. Для тех, кто все таки не в курсе, рекомендую базовую книгу автора - Статистический анализ и визуализация данных с помощью R - заказать на ОЗОНе.
Разработка геоприложений на языке Python - эта книга настолько крутая, что у меня ее сразу Людмила Рогова отобрала, и я не знаю, смогу ли я ее обратно вернуть, потому что в моих планах работа с геолокацией. Если вы теме, то вам мимо этой книги не пройти. Если вы только начинаете осваивать Python или работаете в нем, рекомендую две базовые книги (я их измочалил больше всего):

Python и анализ данных - прекрасный самоучитель по работе в Python, почти как excel для чайников. Хотя если вы взялись за Python, вы уже не чайник.
Построение систем машинного обучения на языке Python - более продвинутая книга, это уже про алгоритмы, но очень простая и понятная.

Сбор данных в Интернете на языке R - даю ссылку на описание книги у себя в блоге, ранее уже анонсировал. Обратите внимание, книга не переводная. После таких книг жалеешь, что перешел с R на Python....
Прогнозное моделирование в IBM SPSS Statistics и R. Метод деревьев решений - тоже не переводная, автор - Артем Груздев, мы ним даже как то одно время дискутировали в Линкедине. Интересно, что помимо SPSS, которая для автора является более родной, показывают код в R - хотя любители SPSS утверждают, что эта программа лучше во всем, включая такой важный компонент, как визуализация деревьев.
Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. Учебник - это книга на псевдокоде, и она не про код, а про математику машинного обучения и искусственного интеллекта. Хотя создавать алгоритмы можно, не зная всей механики процесса, но я сейчас понял, что мне этого стало явно не хватать, ну и это просто моветон - не понимать формул, стоящими за алгоритмами.

И самое главное: книги можно заказать через само издательство
Издательство «ДМК Пресс»
тел.: (495) 743-22-39
e-mail: dmkpress@gmail.com
internet-магазин: www.дмк.рф
Оптовая торговля: ООО «АЛЬЯНС БУКС»
115487, г. Москва, 2-й Нагатинский пр., д.6А
тел.: (499)725-54-09 e-mail: books@alians-kniga.ru

среда, 7 декабря 2016 г.

Загадочная женская душа в HR-исследовании

Хотел проверить гипотезу нашего исследования о семейном положении:
подумалось мне, что женщины будут значимо чаще указывать свой семейный статус как замужний в сравнении с мужчинами. И я бы тогда дам поймал на этом: тогда бы у нас половинки не сходились. Но на входе сразу небольшая проблема нарисовалась: мужчины респонденты значимо взрослее респондентов дам.

У мужчин респондентов медиана возраста 35 лет, женщины моложе (видимо, таки много дам рекрутеров). Крускал Уолисс pvalue=7.4742863601181774e-07
Отсюда мы может выйти в несколько направлений: например, посмотреть средний возраст мужчин / женщин, когда у них стоит семейный статус "женат / замужем", тоже для статуса "Не женат / не замужем". Ввести поправочный коэффициент и т.п.. Я посчитал это нудной и долгой дорогой и ограничился вот таким результатом:

В колонках - пол
В строках - семейный статус.
В ячейках - % по строке.

Т.е. среди всех респондентов с семейным статусом "Гражданский брак" женщин 79 %, а мужчин 21 %.
Всего же в опросе 66 % респондентов женщин, остальные мужчины.
Теперь следите за руками:

Среди женатых респондентов 40 % мужчин, больше чем всего по опросу (33 %), и это нормально, поскольку у нас мужчины в опросе более возрастные, мы можем ожидать, что среди них больше женатых
Среди холостых мужчин 29 %, и это тоже в общем ожидаемо.
Но вот среди тех, кто указал гражданский брак, мужчин 21 %! И это неожидаемо, поскольку мы могли бы ожидать а) % близкий к 40 % (сколько мужчин женатых), либо б) между 29 и 40 % , считая, что гражданский брак это предтеча официального брака, пока молодые созревают подать заявление в ЗАГС.

Но не сходится у нас логика! Дамы значимо чаще мужчин указывают свой статус "гражданский брак". Я вижу два объяснения:

Дамы более серьезно относятся к отношениям и указывают "гражданский брак" там, где для мужчины это способ прикорма;
Либо дамы просто стесняются указывать свой свободный статус в исследовании.
Либо я ничего не понимаю в женщинах, что вполне объяснимо моим свободным статусом.

* и да, я проверил все пары статусов на Хи квадрат (не просто все вместе, а сравнивал ж/м на: холост / женат, холост / гражданский брак, женат / гражданский брак), т.е. дамы значимо чаще указывают статус "гражданский брак" в сравнении с мужчинами как по сравнению с замужним статусом, так и по сранвнению со свободным.
** готов услышать ваши версии. И участвуйте в исследовании

.

Сделать репост в соц сети!

пятница, 30 декабря 2016 г.

Ну про сам пост

Сами результаты

Понравился пост?

четверг, 29 декабря 2016 г.

Распределение по часам

Время суток

Основные результаты

КТО

Big5

Одна мысль

вторник, 27 декабря 2016 г.

Понравился пост?

понедельник, 26 декабря 2016 г.

Дни рождения – особенно такие важные вехи, как 40 и 50 лет

В канун годовщин работы в компании или перехода на текущую должность активность поиска работы повышается на 6 и 9% соответственно

воскресенье, 25 декабря 2016 г.

Факторы

Возраст

Общий балл

Независимость - Согласие

Интроверсия Экстраверсия

Импульсивность - самоконтроль

Пол руководителя - пол подчиненного

И последнее. Задержки руководителя

И вот такая картинка

Понравился пост?

вторник, 20 декабря 2016 г.

воскресенье, 18 декабря 2016 г.

Понравился пост?

суббота, 17 декабря 2016 г.

Возраст

Мужчины

Женщины

Зарплата

Мужчины

Женщины

2 - D графики

Мужчины

Женщины

Дамы! (и не только) Понравился пост?

среда, 14 декабря 2016 г.

Понравился пост?

вторник, 13 декабря 2016 г.

Понравился пост?

понедельник, 12 декабря 2016 г.

среда, 7 декабря 2016 г.

Дамы! (и не только) Понравился пост?

пятница, 30 декабря 2016 г.

четверг, 29 декабря 2016 г.

вторник, 27 декабря 2016 г.

понедельник, 26 декабря 2016 г.

воскресенье, 25 декабря 2016 г.

вторник, 20 декабря 2016 г.

воскресенье, 18 декабря 2016 г.

суббота, 17 декабря 2016 г.

среда, 14 декабря 2016 г.

вторник, 13 декабря 2016 г.

понедельник, 12 декабря 2016 г.

среда, 7 декабря 2016 г.