Основной задачей hr-аналитика в области подбора персонала является не только и не столько нахождение взаимосвязей / корреляции между качествами кандидата и эффективностью в работе, сколько определение точности прогноза.
В самом деле, что нам как специалистам по подбору персонала дает информация о том, что между шкалой теста Х и эффективностью в работе корреляция равна 0, 4? Будем мы использовать эту шкалу или нет?
Ответ здесь такой: само по себе наличие значимой корреляции / взаимосвязи позволяет говорить, что мы потенциально можем использовать ее при отборе кандидатов, но при этом нам необходимо проделать еще одну важную процедуру помимо нахождение взаимосвязей - нам необходимо определить точность данной шкалы (теста) при использовании в подборе.
Корреляция на картинке интуитивно понятна: синие точки распределены не равномерно по площади картинки, а сконцентрированы в правом нижнем углу. Однако нам становится ясным факт, что разделить строго синих и красных не получится. Это говорит о том, что корреляция не идеальна и далека от единицы.
Замечу, что в социальных областях вообще не бывает идеальных корреляций. И когда вам обещают 95 % инструмента, смело можете заканчивать общение с таким "специалистом".
Все, что мы можем сделать в такой ситуации - определить точность прогноза и, что тоже самое, границы принятия решения.
Мы предложили машине провести только одну границу, машина провела границу по линии 56 балов шкалы Sp (так мы заодно поняли, что шкала Sp по мнению машины является более значимой с т.з. подбора работников).
Но точность подбора при такой границе - 0, 72.
Как считается точность. У нас все точки, что на голубой части картинки, по нашему прогнозу - эффективные. Т.е. мы задали границу в 56 балов по Sp и ожидаем, что те, кто показал результат выше 56 балов, будут эффективными. А те, кто показал ниже, соответственно - средние.
Точность считается так: мы складываем синие точки на голубой части и красные на розовой и делим это число на общее количество точек.
Т.е. мы говорим, что вероятность того, что синий будет синим, а красный будет красным с вероятностью 0, 72.
Нас это не устраивает, мы видим, что можно еще задать границы, задаем две
максимальная точность у нас оказалась равна 97 %.
Выше, кстати, чем обещают провайдеры, когда говорят про 95 % валидность.
Можно было бы радоваться, если не одно но. Согласитесь, что узор слишком замысловатый. Красная точка прокралась в самое окружение синих точек и выделена розовым цветом.
Вопрос: когда к нам придет устраиваться новый кандидат и покажет результат как та красная точка - Sp 63, Fx 45, мы его причислим к красным или синим? Или синие точки в районе 50-55 балов по Sp. Трудно поверить, что крайняя левая синяя точка будет синей, а те, что чуть правее - красными, а потом опять сразу синими...
Данный вопрос отражает проблему, которая называется в аналитике переобучением.
Речь идет о том, где граница настоящая, а в границы попали случайные отклонения.
Но наша машина умеет и такое, и мы задаем ей параметр показать "настоящие границы" (я пишу в кавычках ровно потому, что бывают разные машинные алгоритмы, которые по разному понимают "настоящность" границ, поэтому само понятие настоящности является условным.
Эти финальные границы дают нам точность 85 %. Таким образом, мы превратили с вами корреляцию в точность подбора и можем доложить бизнесу, с которым мы "должны говорить на языке цифр", что при имеющихся у нас данных мы будем ошибаться примерно в каждом седьмом кандидате.
И поверьте, это хорошая точность.
В самом деле, что нам как специалистам по подбору персонала дает информация о том, что между шкалой теста Х и эффективностью в работе корреляция равна 0, 4? Будем мы использовать эту шкалу или нет?
Ответ здесь такой: само по себе наличие значимой корреляции / взаимосвязи позволяет говорить, что мы потенциально можем использовать ее при отборе кандидатов, но при этом нам необходимо проделать еще одну важную процедуру помимо нахождение взаимосвязей - нам необходимо определить точность данной шкалы (теста) при использовании в подборе.
Кейс
покажу на примере. У нас было протестировано 87 работников (точнее, еще кандидатов). В дальнейшем часть из них показали высокие результаты в работе (на диаграмме - синие точки), часть - средние результаты (красные). Были выявлены взаимосвязи между эффективностью и шкалами Sp и FxКорреляция на картинке интуитивно понятна: синие точки распределены не равномерно по площади картинки, а сконцентрированы в правом нижнем углу. Однако нам становится ясным факт, что разделить строго синих и красных не получится. Это говорит о том, что корреляция не идеальна и далека от единицы.
Замечу, что в социальных областях вообще не бывает идеальных корреляций. И когда вам обещают 95 % инструмента, смело можете заканчивать общение с таким "специалистом".
Все, что мы можем сделать в такой ситуации - определить точность прогноза и, что тоже самое, границы принятия решения.
Границы принятия решения
Далее я доверюсь машинному алгоритму, который сам предложит границы, а я буду только задавать определенные параметры. Давайте зададим только одну границуМы предложили машине провести только одну границу, машина провела границу по линии 56 балов шкалы Sp (так мы заодно поняли, что шкала Sp по мнению машины является более значимой с т.з. подбора работников).
Но точность подбора при такой границе - 0, 72.
Как считается точность. У нас все точки, что на голубой части картинки, по нашему прогнозу - эффективные. Т.е. мы задали границу в 56 балов по Sp и ожидаем, что те, кто показал результат выше 56 балов, будут эффективными. А те, кто показал ниже, соответственно - средние.
Точность считается так: мы складываем синие точки на голубой части и красные на розовой и делим это число на общее количество точек.
Т.е. мы говорим, что вероятность того, что синий будет синим, а красный будет красным с вероятностью 0, 72.
Нас это не устраивает, мы видим, что можно еще задать границы, задаем две
Две границы
Точность 85 %Три границы
точность 92 %Четыре границы
Точность выросла незначительно, поэтому я сейчас укажу машине сделать максимально возможную точностьМаксимальная точность
максимальная точность у нас оказалась равна 97 %.
Выше, кстати, чем обещают провайдеры, когда говорят про 95 % валидность.
Можно было бы радоваться, если не одно но. Согласитесь, что узор слишком замысловатый. Красная точка прокралась в самое окружение синих точек и выделена розовым цветом.
Вопрос: когда к нам придет устраиваться новый кандидат и покажет результат как та красная точка - Sp 63, Fx 45, мы его причислим к красным или синим? Или синие точки в районе 50-55 балов по Sp. Трудно поверить, что крайняя левая синяя точка будет синей, а те, что чуть правее - красными, а потом опять сразу синими...
Данный вопрос отражает проблему, которая называется в аналитике переобучением.
Речь идет о том, где граница настоящая, а в границы попали случайные отклонения.
Но наша машина умеет и такое, и мы задаем ей параметр показать "настоящие границы" (я пишу в кавычках ровно потому, что бывают разные машинные алгоритмы, которые по разному понимают "настоящность" границ, поэтому само понятие настоящности является условным.
Финальные границы
Эти финальные границы дают нам точность 85 %. Таким образом, мы превратили с вами корреляцию в точность подбора и можем доложить бизнесу, с которым мы "должны говорить на языке цифр", что при имеющихся у нас данных мы будем ошибаться примерно в каждом седьмом кандидате.
И поверьте, это хорошая точность.
Комментариев нет:
Отправить комментарий