.

Сделать репост в соц сети!

среда, 27 декабря 2017 г.

Влияние гендера команды на успешность в игре ЧТО ГДЕ КОГДА



Наша команда аналитиков решила заняться в свободное от работы время (новогоднюю ночь) ответом на вопрос, как diversity влияет на успешность в игре ЧТО ГДЕ КОГДА.
diversity - это ситуация, когда предельное разнообразие команды влияет на ее эффективность.
Наиболее известный пример  diversity - пример Google Блог компании Google и политики diversity. Якобы в компании есть политика принимать на работу не менее 20 % женщин для обеспечения diversity. И еще из Google уволили одного разработчика, который усомнился в способностях женщин. В Apple появился вице-президент по многообразию и меньшинствам - тут вообще политика diversity вынесена на высший уровень. Не чурается этой темы и гранд гуру HR Джош Берсин. Переворот рынка HR технологий: 10 топ трендов 2018. Посмотрите шестой тренд: "....в ядре рекрутинга сейчас находится разнообразие (diversity)....".
Но я никак не мог найти нормальных доказательств на уровне цифр, которые бы показывали, что diversity действительно влияют на эффективность команды. Я встречал вот типа такие исследования Что делает команду более умной? Больше женщин - это лабораторные игры, которые не имеют отношения к бизнесу. Хотя красиво, не скрою.

Задача

В какой то момент у меня родилась идея, как проверить diversity - взять игру ЧТО ГДЕ КОГДА. Там есть абсолютно четкий результат (скептики скажут, что там все подстроено, но даже в этой ситуации diversity как бе работать должно). У нас есть команда из шести человек. Мы можем посмотреть, как diversity  команды связано с эффективностю. И в любом случае согласитесь, что результат игры это бизнесовый результат поскольку на кону деньги. Все честно.
Итого, осталось раздобыть данные и сделать анализ.
Но с сайта игры крайне сложно выкачать данные игр
А я обладаю нехорошим качеством: нетерпелив. Поэтому нашел скорострельное решение. Только про гендер.
Взял информацию с турнира Открытый Кубок России 2017. В турнире принимали участие несколько сотен команд, что делает доступным анализ. Кроме того, информацию можно скачать прямо с сайта в файле csv + есть информация по игрокам (фио).
Через признак ФИО достаточно легко определить пол игрока, из него я получаю общий признак пола по команде: мужчин я мечу как "1", женщин как "0". И признак команды принимает значения от 0 (одни дамы) до 6 (одни мужики). Этот признак и будет у нас обозначать diversity.
Правда там одна странность - было много команд с меньшим числов игроков, чем 6, были и те, что более шести. Я, не парясь, оставил только те, где были ровно шесть игроков в команде.
Задача такая: посмотреть взаимосвязь между количеством мужчин в команде (diversity) и местом с турнире.
В этом анализе есть еще одна интрига - Что делает команду более умной? Больше женщин - западные исследования показали, что присутствие женщин в команде делает ее более эффективной. И вот наш российский импортозамещающий ответ.

Результат

  1. Корреляция по Пирсону между местом в Кубке и числом мужчин в команды равна cor -0.1952639 при p-value = 4.125e-05
  2. Корреляция по Спирмену между местом и числом мужчин в команды равна cor -0.1895072  при p-value = 6.973e-05

Неплохо, правда?)
Влияние гендера команды на успешность в игре ЧТО ГДЕ КОГДА

Ну на картинке все вроде понятно, не надо объяснять. Просто в качестве коммента: команды из одних дам выше 200 места не поднимались. Дамы, берите хотя бы одного мужика на разживку, а?

Загогулина

А вот если эта связь нелинейна, а? А тогда давайте мы построим линейную регрессию, где признак "количество мужчин" выступает не как числовая переменная, а как фактор. А давайте: diversity в нашем случае был бы ближе как раз к нелинейной связи, т.е. наиболее diversity сочетание было бы 3 (половинка на половинку).
Call:
lm(formula = q$Место ~ as.factor(q$ген))

Residuals:
    Min      1Q  Median      3Q     Max
-354.08 -171.16  -36.56  164.57  472.84

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)   
(Intercept)         466.19      59.84   7.790 5.11e-14 ***
as.factor(q$ген)1   -70.11      86.38  -0.812  0.41743   
as.factor(q$ген)2   -32.65      69.82  -0.468  0.64027   
as.factor(q$ген)3  -107.38      63.97  -1.678  0.09399 . 
as.factor(q$ген)4  -161.03      62.52  -2.576  0.01034 * 
as.factor(q$ген)5  -146.64      63.37  -2.314  0.02115 * 
as.factor(q$ген)6  -204.50      70.36  -2.907  0.00384 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 215.8 on 428 degrees of freedom
Multiple R-squared:  0.04798, Adjusted R-squared:  0.03464

F-statistic: 3.595 on 6 and 428 DF,  p-value: 0.001729


F статистика значима, уже хорошо, объясненная дисперсия, правда, всего 4 % (а adjusted - чуть больше трех % объясняет). Но связь то есть.
И самый сильный коэффициент у уровня "6", т.е. если в команде все 6 мужчин, то вероятность более высокого места выше.
Полиномные регрессии тоже не дали результата.
* да, преобразования типа Бокса Кокса, логарифмирование и т.п. тоже ничего не дали, порядок факторов такое же.
........................
Дамы, простите, ничего личного,  это у них там на Западе дамы и diversity делают эффективность команды, а у нас суровые российские условия диктуют свои условия.

В этом месте как бе следует часть "Обсуждение результатов", но я лично не понимаю, а чего тут обсуждать, вроде все себе вполне понятно. Если мы обсуждаем тему diversity, то в нашем случае гипотеза про гендерное diversity для данного конкретного кейса не подтвердилась.
Но это не все данные, не все команды, не все переменные. И не все ваши возражения, комментарии, подъ...ки я еще выслушал) Пишите, буду рад. Больше всего мне бы хотелось услышать от вас наводки на то, где diversity реально бы работало.

__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме

понедельник, 25 декабря 2017 г.

О пользе рекрутеров с точки зрения HR-аналитика



Рекрутеров надо оберегать, лелеять и беречь.
Сделал для одного ритейлера аналитику: посчитал связь стажа кандидата со стажем рекрутера.
Оценили? Тогда еще раз:
У нас трудоустраивается кандидат, с ним работает рекрутер. У рекрутера свой стаж работы в компании: рекрутер может быть новичком, может быть опытным чуваком. Так вот я посмотрел связь между тем, как долго проработает кандидат, и тем, принимал ли его опытный рекрутер или нет.

Оцените саму идею, коллеги. Этот анализ теперь смогут провести десятки аналитиков, взяв у меня идею. Памятник не хотите мне поставить за то, что я бесплатно делюсь своими идеями?

Итак, я выделил три группы рекрутеров:

  1. проработавших в компании менее 1,5 лет;
  2. имеющих опыт от 1,5 до 3 лет;
  3. Тех, кто работает в компании рекрутером более 3-х лет.
Общее число работающих у ритейлера - несколько тысяч человек, поэтому выборка по любому репрезентативна. 

Результат

О пользе рекрутеров с точки зрения HR-аналитика
По оси X - стаж работы в компании, по оси Y - вероятность дожития до этого стажа. Для тех, кто хочет более подробно узнать, что обозначает диаграмма - Анализ и визуализация дожития: чем HR похож на медиков
  1. Стаж кандидатов, которых принимали самые молодые рекрутеры - 24 месяца в среднем;
  2. Стаж кандидатов, кого принимали середняки (от 1,5 до 3 лет) - 28,5 месяцев;
  3. 45 месяцев работают кандидаты, кто имели дело с ветеранами.

Различия значимые.
Круто?
В качестве бонуса: ответьте на вопрос, в какую засаду мы можем попасть с этим анализом? И из-за чего я не спал полночи, чтобы избежать всех подводных камней.



__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме

воскресенье, 24 декабря 2017 г.

7 факторов зарплаты HR (анализ рынка России, декабрь 2017)



Хочу поделится анализом рынка вакансий за декабрь.
Огромное спасибо Артем Николаев за скрипты для выкачивания вакансий с hh.ru в Питоне. 
Вот тут нашел скрипт для R. Он очень доходчивый и понятный: https://habrahabr.ru/post/337684/
Далее выяснилось, что если делать обычный поисковый запрос, то вакансии приходят без скилов, но если делать запрос по номеру вакансии, то они приходят со списком скилов, которые отметил рекрутер. Это уже интереснее! Сформировал датасет по всем актуальным вакансиям где в названии встречается HR.
И тут начались проблемы:
·        -  Хедхантер выводит не только вакансии HR, но и все объявления где HR упоминается в описании вакансии. Иногда попадаются вакансии водителя для HR.
·      -  Есть совершенно подозрительные вакансии аналогичные по всем регионам и с мутным описанием не соответствующим функционалу HR.

·     -  И, наконец, есть Тинькофф. У этого банка тоже однотипные вакансии "Специалист по подбору персонала " во всех регионах вот с таким милым описанием требований "Активность и целеустремлённость. Харизматичность. Грамотная речь. Быстрая обучаемость. Высокий уровень самодисциплины. Усидчивость. Желание много общаться и помогать людям.". Самое интересное, что заработная плата такого специалиста всего 20000 рублей, но работа и обучение все дистанционно (из дома).  Интересная кадровая модель для HR.

На рисунке 1 видно, что ключевые навыки HR c точки зрения рекрутера: Подбор персонала, Оценка персонала, Обучение и развитие, Адаптация персонала, Управление персоналом и Корпоративная культура. В принципе, ничего удивительного.
Низкий процент анкет с указанными навыками вероятнее всего говорит, что этот инструмент HR еще не освоили (эта функция была запущена несколько месяцев назад) или просто не хотят напрягаться. По всей видимости, на основании этих навыков Хедхантер планирует построить рекомендательную модель.
А теперь самое интересное:
-  Английский язык требуется только 8 вакансий (0,008%). А это значит, что специалист профессиональная сфера которого имеет название на английском с точки зрения рекрутеров язык знать не должен.  Возможно, это объясняет низкую осведомленность HR в современных западных трендах и очень низкий уровень контактов с западными коллегами.
-  Еще хуже обстоит дело с HR-аналиткой, она требуется только в одной вакансии. И тут мы понимаем, почему эта сфера так плохо внедряется в практику работы HR. Появляется гаденькая гипотеза, что рекрутеры набирают  себе подобных HR, т.е. по тем навыкам, которые им хорошо известны и есть у них самих. Но это только гипотеза, пока не подтвержденная.
В среднем указывается от 5 до 7 навыков, лидер компания из г.Красноярск, которая за 65000 рублей при полной занятости хочет видеть HR со списком из 30 навыков. Пожелаем им дружно удачи!

Гипотеза этого исследования: на основании списка требований к кандидату можно спрогнозировать его заработную плату.
1. Изучим заработную плату HR. На рисунке 3 стандартные ящики  усами для зарплаты в Москве и других регионах России. Видно, что медиана зарплат в Москве - 60000 рублей (в моем исследовании за март 2017 года медиана была 50000 рублей). В регионах  - 32000 рублей. В Москве есть вакансии HR c заработной платой 550 000 рублей, конечно это руководители отдела крупной фирмы.
У кого хорошее зрение и есть желание изучить заработные платы HR по городам России, могут обратится к данному рисунку. 

Заработную плату больше 150 000 рублей будем считать статистическим выбросом, она все равно будет плохо прогнозироваться нашей моделью, т.к. уровень должности в нашем датасете не закодирован (это надо делать вручную).
2. Изучим потенциальные предикторы. Что-то подсказывает, что основным предиктором будет требуемый опыт работы. На рисунке 3 видно, что в основном ищут HR с опытом работы от 1 до 3 лет. Опыт работы более 6-ти лет требуется только для 32 вакансий.
Вторым значимым  предиктором вероятно будет тип занятости: полная будет оплачиваться лучше. В нашем датасете только 27 вакансий с частичной занятостью. Даже Тинькоф  за 20000 рублей хочет полную занятость у HR.
Третьим  по значимости предиктором скорее всего будут Москва (Московская область) и Санкт-Петербург, как регионы с более высокой заработной платой.
3. Всегда имеет смысл начать с линейной регрессионной модели, т.к. она очень хорошо интерпретируется.
Рассчитываем статистическую мощность.
Multiple regression power calculation
u = 28  (количество предикторов минус 1)
v = 764 (количество наблюдений минус количество предикторов)
f2 = 0.15 (прогнозируемый R-квадрат)
sig.level = 0.05 (уровень значимости)
power = 1 (статистическая мощность)

Статистическая мощность 1 (это конечно округление) говорит о том, что для R-квадрат большего 0,15 нам данных вполне хватает даже с учетом такого большего количества предикторов.
Рассчитываем полную модель (со всеми предикторами). Получилось много статистически значимых предикторов, но мы помним про проблему множественных сравнений. Самый жесткий критерий Бонферони, для 29 предикторов уровень статистической значимости должен быть 0.05/29 =0,002, нас это вполне устраивает.
Чистим модель от незначимых предикторов. Вот что получилось:

Residuals:
   Min     1Q Median     3Q    Max 
-79269 -10379  -2879   6830  68533 
 
Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)        13085       4023   3.253 0.001193 ** 
Опыт от 1 до 3 лет 13783       1901   7.249 1.02e-12 ***
Опыт от 3 до 6 лет 33246       2182  15.236  < 2e-16 ***
Опыт больше 6 лет  58974       3984  14.803  < 2e-16 ***
Москва             23416       1576  14.861  < 2e-16 ***
Санкт-Петербург    11626       2160   5.383 9.74e-08 ***
Занятость          8510        3858   2.206 0.027700 *  
Управление         11595       2534   4.576 5.53e-06 ***
Корп.культура     -10036       2729  -3.677 0.000252 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
Residual standard error: 19050 on 766 degrees of freedom
Multiple R-squared:  0.4898,   Adjusted R-squared:  0.4845 
F-statistic: 91.91 on 8 and 766 DF,  p-value: < 2.2e-16

Эта модель объясняет почти 50% дисперсии, что с учетом достаточно грязных данных очень неплохо.
Мы видим, что критерий "форма занятости" для этой модели значим, но не удовлетворяет уровню статистической значимости 0,002. Можно его тоже исключить, но в связи с тем, что таких вакансий было очень мало, принимаем решение оставить.
4. Интерпретируем модель:
Характеристика HR
Прибавка к заработной плате (рубли)
Нет опыта работы, работает в регионе неполный рабочий день
Базовая зарплата 13085
Стал работать полный рабочий день
+ 8510
Отработал больше одного года
+ 13783
Отработал больше трех лет
+ 19463 (прибавка в зарплате относительно базового уровня +33246)
Отработал больше шести лет
+ 25728 (прибавка в зарплате относительно базового уровня +58974)
Переехал в Санкт Петербург
+ 11626
Переехал из Санкт-Петербурга в Москву
+ 11790 (прибавка в зарплате относительно базового уровня +33246)
Прокачали в себе навыки управления
+ 11595
Стали заниматься вопросами корпоративной культуры
Потеряли -10036

Еще в прошлом исследовании я обратил внимание на то, что есть навыки которые уменьшают заработную плату. Это кажется странным -любой навык должен повышать конкурентоспособность специалиста. Объяснить это очень просто если вспомнить какие данные мы использовали. В объявлениях о вакансиях в которых набирают людей с навыками управления корпоративной культурой предлагают меньшую зарплату.
5. В конце мы попробовали факторизовать требуемые навыки HR.
На рисунке 5 можно выделить три интересных группы навыков:
Группа навыков
Перечень навыков в группе
Бюрократы
Кадровый план, кадровая стратегия, кадровая политика, внутренние коммуникации и HR бренд, корпоративная культура
Реалисты
Подбор, оценка, обучение, адаптация
Управленцы
Мотивация персонала, командная работа и управление командой, управление персоналом, организаторские способности

Бюрократы больше ориентированы на процесс, реалисты на результат, а управленцы на людей. Очень похоже на управленческую решетку Блейка-Моутона и Херси-Бланшара.

Обсуждение результатов:
1. Результаты этого исследования могут быть искажены, т.к. мы брали вакансии только за декабрь 2017 года. Представляется важным сравнить эти данные с предыдущими периодами.
2. Мы не получили неожиданных результатов, но данные позволили нам спрогнозировать средний уровень заработной платы HR в зависимости от его профессиональных характеристик.

People Analytics 3.0


Перевод статьи People Analytics 3.0 от Ола Адамсена (Al Adamsen) в рамках нашего  проекта переводы статей по hr-аналитике на английском. Автор в нашем блоге впервые участвует, хотя имя известное, и пост вызвал очень большой интерес.
Перевод сделала Александра Багинская (по ссылке профиль с Линкедина). Александра родом с Украины, но живет и работает в Голландии. Рекомендую - вот из таких и надо набирать таланты.  Читайте другие статьи Александры у нас в блоге:
  1. Джош Берсин. Переворот рынка HR технологий: 10 топ трендов 2018
  2. Удержать или отпустить? Данные, на которые следует корректно реагировать, когда сотрудник увольняется
  3. Соседство с лучшими сотрудниками может увеличить производительность

И вот очередная бомба

People Analytics 3.0

Опубликовано 18 декабря 2017
Автор Al Adamsen, основатель и исполнительный директор Insight222

People Analytics 3.0 занимается разработкой и использованием продуктов на основе аналитики. Такие продукты приносят большую ценность в организации на невиданной ранее глубине. Она по-прежнему готовит отчет для инвесторов – руководства и HR лидеров, но, в то же время, она также приносит пользу тем, кто генерирует данные, а именно сотрудникам. Примеры включают инструменты для анализа организационной сети (ONA), картографирования навыков (skill-mapping), карьерной навигации (career navigation), прислушивания (listening), вовлеченности (engagement) и благосостояния (well-being), которые обеспечивают более частые, основанные на действиях инсайты, то есть понимание того, что происходит, и что, вероятно, произойдет на основе анализа активности в настоящем или ближайшем прошлом (например, дни и недели). Это очень отличается от нынешних норм: менее уверенная в себе информация, подтверждающая, что «может произойти» на основе периодических, ретроспективных исторических данных (например, данных в рамках HRMS или ежегодного опроса сотрудников).
Сейчас многое написано и обговорено о том, как передовые аналитические методы могут быть применены в области талантов/рабочей силы, продвижении в механическом обучении, искусственном интеллекте (AI) и обработке естественного языка и многом другом. Это все отлично, но важно пролит свет на то, как эти и другие дисциплины подходят к ому, что уже давно происходит в организациях. Эти новые методы, инструменты и данные чаще попадают, чем обходят постоянно расширяющийся и все более эзотерический желоб «People Analytics». Здесь нужно выделить три больших ведра, которые можно вытащить из этого желоба, чтобы бюджет, ресурсы и энергия могли быть распределены сознательно и надлежащим образом. И это чрезвычайно важно: работа People Analytics 3.0 отличается от 1.0 и 2.0. Навыки – другие. Люди, которые выполняют эту работу, – другие, они – ученые, занимающиеся данными, разработчики программного обеспечения, ux-дизайнеры и т.п. Ценностные предложения также другие, как и инструменты, используемые для создания этих предложений. Если эти различия не получат должного признания и действий, ваша организация будет отставать в постоянно ускоряющейся гонке за талантами, обеспечением отличного опыта работы (great work experiences), максимизированием производительности, инновациями, удовлетворенностью клиентов и т.д. Вы также будете недостаточно подготовлены к соответствующей реакции к трансформации бизнеса и рынка.

Хорошо. Имеет смысл. Если речь идет о 3.0, а что же это за 1.0 и 2.0 тогда?


Рад, что вы спросили. People Analytics 1.0 – это то, о чем думают большинство людей, когда они впервые слышат термин «People Analytics» в науке или бизнесе. Это исследование. Это может быть эксперимент. Это проект, призванный выявить определенную динамику: личную, межличностную или связанную с командами, группами или организациями. Такая работа ведется очень долго, более ста лет в зависимости от того, как вы ее определяете. Это область профессиональных исследователей: психологов труда, антропологов, экономистов, статистов, сценарных планировщиков и т.д. (Кстати, я использую «People Analytics» как замещающий термин для всех отдаленных синонимов: Workforce / Talent / HR Analytics). Обсуждение различий между ними редко бывает полезным использованием времени, и уж точно не в этом контексте).
People Analytics 2.0 – это агрегация, очистка, визуализация, распространение и анализ ранее несопоставимых наборов данных. Проще говоря, People Analytics 1.0 включает объединение данных на основе событий, чаще всего для четко определенного, ограниченного по времени, группового исследования. В People Analytics 2.0, напротив, данные постоянно доступны с помощью инструмента для более широкой аудитории, чем только аналитик или исследовательская группа. Поэтому, учитывая ее природу, эту работу чаще всего выполняют профессионалы с опытом работы в сфере ИТ, HRIS, хранения данных, архитектуры данных, визуализации данных и т. д. Это прямой потомок индустрии Business Intelligence, который зреет последние 20 лет, особенно последние 10.

Чтобы оценить, как People Analytics 2.0 развилась на протяжении многих лет, небольшая история. Когда я работал в этой области в начале-середине 2000-х годов, мы могли раз в квартал собирать данные из разрозненных систем, и каждый квартал публикация результатов для внутренних аналитиков и HR сообщества у нас занимала примерно 21 рабочий день (три недели!). Насколько популярны были эти «обзоры» после публикации порой через четыре месяца после того, как данные были впервые получены? Конечно не очень. Насколько популярны сейчас подобные обзоры? Очень. Почему? Потому что данные теперь публикуются ежемесячно, еженедельно, а иногда и ежедневно. Цикл обновления, который когда-то занимал 21 день, теперь занимает всего один или два дня, а в некоторых случаях, в зависимости от наборов данных, технологий сбора, целостности процессов, аналитических технологий и нескольких других факторов, такие данные теперь могут быть доступны в реальном (или почти) времени – несравнимо лучше, чем раз в квартал. Конечно, это представляет собой ОГРОМНОЕ достижение, но пока что это все, чего мы достигли. У этих инсайтов все еще ограниченная аудитория и целостность, а, следовательно, и используемость данных за ними по-прежнему остается под вопросом. Почему? Потому что данные чаще всего являются транзакционными, нерегулярными и относительно отдаленными от исследуемой динамики (для примера посмотрите, Performance Management is Stupid).
Расположенные рядом, People Analytics 1.0, 2.0 и 3.0 выглядят следующим образом:
People Analytics 3.0

Здесь очень важно отметить, что это НЕ прогрессивная модель или модель зрелости. Любая современная функция People Analytics будет совмещать все три через экосистему данных, инструментов, людей и партнеров. Все они важны. Все они имеют свою уникальную цель. Все выстоят. Тем не менее, они не равны с точки зрения необходимых инвестиций или создаваемой ценности. Не удивительно, что наибольшие инвестиции, риски и возможности заключаются в People Analytics 3.0.

ОК. Согласен. Я вижу некоторые различия, на сегодняшний день наш бизнес неплохо справлялся без 3.0, поэтому, если цена высока, относительно высок риск и т.д. зачем это нам? В конце концов, мы все еще не так хороши в том, что вы описываете как 1.0 и 2.0.

суббота, 23 декабря 2017 г.

О валидности (точнее, невалидности) центров оценки



Этот пост - продолжение моей дискуссии с Евгением Лурье. Начало здесь Про Российский стандарт центра оценки: вопросы аналитика к авторам. Читать этот пост вы не будете (дай бох Евгений осилит), поскольку здесь много погружения в детали, поэтому коротко о главном.
Цель поста простая: показать, что в Российской практике НЕТ ни одного нормального доказательства валидности центров оценки - валидности, которая бы показывала взаимосвязь оценок в центре оценки и бизнес показателей. А авторы Стандарта вводят рынок в заблуждение. Намеренно или по собственному непониманию - другой вопрос.
И еще оцените мою трудоспособность: я трачу кучу времени на изучение источников, которые сам оппонент едва ли читал, о чем ниже. Я не уверен, что готов буду в дальнейшем тратить свое время на изучение сомнительных цифр, которыми кормит рынок Евгений Лурье.
Коллеги, также я обращаюсь к тем из вас, кто проводит ассессмент центры в компании, с предложением о валидизации результатов центров оценок. Я помогу вам оценить, насколько результаты центра оценок коррелируют с бизнес показателями, а рынок получит еще один кейс (с вашего разрешения, конечно).

Ну итак

Главный вопрос дискуссии - валидность центров оценки.
В  Российском стандарте центра оценки есть такая фраза:
 "Валидность ЦО была ранее доказана на материале многочисленных исследований."
Я к этой фразе задал несколько вопросов:

  1. Относится ли эта фраза также к критериальной валидности?
  2. Если да, то приведите "материалы многочисленных исследований", доказывающих критериальную валидность?
  3. Поскольку речь идет о Российском стандарте центра оценки, то не могли бы вы привести материалы многочисленных исследований именно на российских кейсах?

Евгений дал кучу ссылок, но реальных кейсов про валидность центров оценки всего три.
Евгений, три кейса это многочисленные?
ВСЕГО ТРИ КЕЙСА, Карл!!!, если вам нужно подготовиться для того, чтобы найти больше кейсов, то чего стоит ваша фраза в Стандарте про "многочисленные....". Вам не кажется, что вы вводите в заблуждение рынок своими "многочисленными" исследованиями по валидизации центра оценка?
На эти три кейса у меня есть кейс Сбербанка, где результаты Центра Оценки коррелировали с KPI на уровне 0, 0.
Первые два кейса приводятся в посте Про валидность ассессмент центров, а третий кейс - кейс Экопси - в посте Валидность и надежность российских Центров оценки.
Итого три кейса:
  1. Кейс Ерофеева, 2012
  2. Кейс Сидоренко, 2013
  3. Кейс Экопси.

Из этих трех кейсов про критериальную валидность центров оценки (валидность, которая показывает взаимосвязь между результатами центра оценки и результатами бизнеса) кейс Сидоренко, поэтому я приберегу его напоследок и покажу с особым удовольствием (Сам Евгений с особым удовольствием цитирует результат кейса: "Центр оценки правильно предсказывал успешность прохождения стажировки в 77.5% случаев". А я вам с удовольствием покажу, что реально стоит за этими 77, 5 % , чтобы у вас не перехватывало дух от таких высоких результатов. Дьявол как всегда в деталях.)


Кейс Ерофеева

Это вообще непонятный кейс. Евгений Лурье приводит фразу: "Сравнивался Итоговый Оценочный Рейтинг, полученный в ходе ЦО, с усредненными оценками из интервью по компетенциям, которые проводили сотрудники службы персонала....... получен средний коэффициент корреляции 0.63 при р=0.01". 
По русски это так: одновременно психологи и HR компании оценивали чуваков, а потом сверили оценки и выяснили, что оценки бьются на 0, 63. 
Поздравляю. В этом случае готов согласиться с тем, что оценки могут совпадать: в чем здесь проблема? Как сам Евгений многократно любит приводить пример, что факторный анализ "сворачивает" все компетенции в 1-2 фактора, которые больше про "понравился / не понравился", чем про реальные скилсы, так и в этом случае вполне допускаю, что и те, и другие оценили способность держаться и все такое. 
Как это связано с валидностью центра оценки
Сам Ерофеев пишет про другое, чем Евгений:
"Дополненные имитационными упражнениями и мультимодальным интервью батареи поведенческих тестов когнитивных способностей и социального интеллекта позволили разработать, валидизировать и внедрить три программы центров оценки ACL (Assessment Center LASPI). Критериальная валидность различных программ изменяется в интервале 0.60-0.67 ( среднее: r= 0.63, р=0.01) (Ерофеев, 2010)." 
В самом тексте вообще НИЧЕГО не говорится про бизнес результаты людей. Из самого описания (стр 150, почитайте) следует скорее, что критериальная валидность - это про успешность выполнения тестовых заданий, которые сам же автор и придумал:
"Первая исследовательская программа посвящена развитию экспериментальных лабораторных методов исследования ситуативных (относящихся к отдельному по-ступку в попытке достичь цель) и ситуационных (относящихся к серии поступков, допустимых в конкретной ситуации) поведенческих параметров рациональности стратегии поиска границы возможностей в условиях многоальтернативного выбора."
Поэтому в качестве резюме: этот кейс вообще непонятно про что. Евгений говорит про сметчивание оценок, сам автор про другое. Резюме: я не могу засчитать этот кейс в копилку валидности центров оценки.


Кейс Экопси

В 2012 году сотрудники Экопси Попов и Лурье опубликовали статью в журнале Организационная психология. Статья немаленькая, но весь результат (стоило огород городит?) в фразе:
На первом этапе анализа изучались отсроченные корреляции результатов ЦО в 2002–2003 гг. и результатов ЦО в 2006–2012 гг. По результатам анализа тест-ретестовый коэффициент корреляции Спирмена для общего оценочного рейтинга (ООР) Центра оценки составил 0.47 при N = 124 и p < 0.001. Оценки по отдельным компетенциям также обнаруживают довольно тесный паттерн корреляций друг с другом (разброс корреляций от 0.06 до 0.44).
К однозначным плюсам нужно отнести тот факт, что здесь указан, какой именно коэффициент корреляции указан. А далее в таблице показываются корреляции между конкретными компетенциями, которые уже показывают настоящую картину:
Берем компетенцию из ассессмент центров 2002-2006 годов "Взаимодействие в многофункциональной команде". Это компетенция коррелирует с оценками по компетенции "Командная работа" 2006-2012 года на уровне 0, 2 - маловато, не правда ли? Но эта же компетенция коррелирует с оценками по компетенции 2006-2012 года "Управленческая самостоятельность" на уровне 0, 33. 
Странно? Вроде "свои" компетенции должны коррелировать выше. А все дело в том, что в центре оценки оценивают не конкретные компетенции, а общее впечатление или чего то там. И связь между оценками спустя 6 лет понятна. Во-первых, ассессоры сравнивают одних и тех же людей (124 человека), а коэффициент Спирмена - ранговый коэффициент, он как раз научен ловить отличия того, как у нас расставляют по рангам людей. Готов поспорить, если бы эти же люди работали в других компаниях, их оценивали в других составах на центре оценки, то такой коэффициент получен бы не был. Обобщенный коэффициент показал 0, 47, а отдельные компетенции такого не показали, потому что усреднение как раз работает на руку коэффициенту корреляции Спирмена. И кроме того, 0, 47 это не так много. Я бы в качестве валидизации рекомендовал провести такую процедуру: возьмите этих спецов и попросите их рассказать интересную историю, в качестве оценщиков возьмите первых попавшихся зевак, попросите этих зевак оценить, насколько интересным было рассказ спеца по разным категориям. Через шесть лет пусть эти же спецы опять расскажу историю, но оценщики / зеваки будут другими. Они опять оценят. И мы стопудово найдем корреляцию Спирмена в этих оценках. (это и есть валидность центра оценки?)
И главное: и что нам доказывает это исследование? То, что спустя несколько лет одни и те же люди будут выстроены примерно в одной и той же иерархии оценок? Ну поздравляю, для психологии это, наверное, высокий результат. 
Резюме: как это все связано с валидностью центров оценки?


Кейс Сидоренко. Самое вкусное

Оцените мой труд: я осилил книгу Сидоренко про центры оценки. Евгений презентирует этот кейс по валидизации центра оценки так: "Центр оценки правильно предсказывал успешность прохождения стажировки в 77.5% случаев". Кейс ценен тем, что это про реальную связь с бизнес оценками. 
Я вам рекомендую самостоятельно с 90-й страницы почитать. И тут выясняется много деталей:)
По трем другим группам, общей численностью в 89 человек, мы располагаем только общими оценками принимающих фирм, данными в шести балльной шкале: “ниже среднего”, “удовлетворительно”, “хорошо”, “очень хорошо”, “отлично”, “великолепно”. Данные оценки лишь условно можно назвать критериальными мерами, поскольку их объективность и независимость вызывает определенные сомнения.
Итого у нас есть 89 менеджеров, по которым есть оценки компании (от ниже среднего до великолепно) и оценки по компетенциям. Заметьте, автор просто в тренде: "Данные оценки лишь условно можно назвать критериальными мерами, поскольку их объективность и независимость вызывает определенные сомнения.". В тренде, потому что главный аналитик Экопси Г.Финкельштейн прямо указывает на то, что KPI фу фу бяка, нельзя на это ориентироваться, они, KPI, выставляются непонятно кем, зачем, незнако как. Ему вторит и гендир Экопси П. Безручко, а Евгений Лурье так вообще не скрывает своего отношения к KPI  Обычно замер KPI существенно хуже по качеству, чем стандартизированный инструмент оценки поведения. Да ещё и содержит солидную долю политики и платы за лояльность. Т.е. мы профи и спецы, а эти дураки из бизнеса не умеют оценивать работу персонала, а ставят оценки исключительно за лояльность. А мы только за бабло, которые нам за ассессмент центры отваливают объективны и непредвзяты.  Те по сути позиция по валидации центра оценки звучит так: нам вообще не надо валидизировать центры оценки, мы спецы сами в себе. Сферический конь в вакууме.
Я с такой позицией Экопси не согласен. Но бох с ним, давайте посмотрим, что накопал Сидоренко:
Коэффициент корреляции между оценками ТЕХНОЛОГИИ и принимающих компаний невысок, но статистически значим: 0,236 при значимости 0,045.
Вот здесь можно вообще закрывать книгу и не читать, если бы я конечно верил, что автор в математике разбирается. Если бы доверял, то сказал бы 0, 236 при p-value 0, 045 - суши весла. Закрывай тему валидизации центров оценки. Спасибо автору за честность. Но реальная картинка показана на стр 91 (и результат еще хуже, чем 0, 236)

О валидности (точнее, невалидности) центров оценки

  1. В строках: оценки компанией стажеров. 
  2. В колонках: оценки по центру оценки.

Цитирую:  "оценка “ниже среднего” примерно соответствует категории
LS, а “великолепно” - MS"
Ну т.е. по сути дела LS - плохо, QS - средне, MS - круто.
Так вот, ВСЕ, кто показал себя плохо (оценки ниже среднего и удовлетворительно) покали в группу средних оценок по компетенциям. И 19 человек они вообще не рекомендовали брать, а эти люди показали оценки от хорошо до великолепно. Да, 6 человек великолепных совпали, но и 5 они отправили отдыхать, а те показали великолепно по итогу.
Строго говоря, для этой компании вообще нужен инструмент отсева плохих, если они берут тех, кто показал оценки от хорошо и выше. У них таких трое, это 3, 3 %. И эти 3, 3 % не смог уловить ассессмент центр. Presicion равен 0, 0.
Но давайте сами пофантазируем, а что, если компания будет брать тех, к кого только отлично и великолепно?

LS
QS
MS

0
7
24
0
31
1
12
40
6
59

19
64
6
90
Давайте получим из нее матрицу неточностей

LS
QS / MS

0
7
24
31
1
12
46
58

19
70
89

Логика, очень проста в данном случае: Если кандидат показал на центре оценке результат QS или MS, то он с вероятностью 0, 657 % будет оценен как хорошо или великолепно (делим 46 на 70). А если LS, то 63 % (12 делить на 19). 
Какое качество модели в данном случае? говно Не очень хорошее. Для спецов: Хи квадрат, 0, 83 или типа того. 
Евгений, если бы вы посетили мой семинар Семинар BigData для HR-директоров, Москва, я бы вас научил считать реальную связь между результатами центров оценки и бизнес показателями, т.е. валидизировать центры оценки (скорее невалидизировать). Вы же на сегодня либо сами просто не понимаете смысла цифр, которые вы слышите про валидизацию центров оценки, либо умышленно скрываете истинную картину, что еще хуже. Отсюда возникает гипотеза, что бывший коллега Евгения Лурье Шатров Вопросы к тесту управленческого потенциала Экопси примерно на таком же уровне понимает логику валидизации центров оценки и тестов.

Резюме

Из предъявленных на сегодня ссылок на "многочисленные исследования", нет ровным счетом ни одной ссылки, которая бы показывала ценность центров оценки для бизнеса. Сиречь в моем понимании валидность центра оценки



__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме