.

Сделать репост в соц сети!

воскресенье, 12 мая 2019 г.

На работу срочно требуется data психолог !!! Часть#2





Добрейшего!

Кто хочет больше узнать про нашу команду см. "Мы продолжаем врезаться в стены, но пересели на велосипеды и самокаты"

Продолжаем решать кейс: Как повысить своевременность подбора до 95%? 

Этот пост создан как алгоритм дизайна исследования. Желающие могут повторить. Все скрипты целы и сохранны.

Историю кейса можно найти по ссылке: <На работу срочно требуется data психолог !!!  :( data аналитикам, просьба не беспокоить...>

Итак, мы проверяем гипотезы полученные в ходе интервью с экспертами (спасибо за идею Евгению Бондаренко).
Гипотеза1. Рекрутер влияет на срок дожития вакансии. Ограничение: вакансии распределяются между рекрутерами категориям персонала и сложности добычи кандидатов. 



Пф... Слишком много цветов. Хотя можем визуально оценить кто из рекрутеров быстрее справляется с вакансией. 
Как читать графики дожития? <Эдуард Бабушкин> или <Евгений Бондаренко> или еще много кто...

Гипотеза 2. HR менеджер влияет на срок дожития своих вакансий. Ограничение: вакансии не равномерно распределены среди HR. Наблюдение: если не закрыли за 60 дней дальше дела идут хуже. Не закрыли за 150 дней, дальше дело случая. Как в анекдоте: "а неудачники у нас не работают"


Гипотеза 3. Категория вакансии влияет на срок закрытия. Ограничение: внутри категории вакансии могут иметь разную сложность добычи ЛИДа. Очевидно, что это самая полезная информация. Здесь будет больше цифр.
Наблюдение: одни категории проще других (Капитан Очевидность, 2019). В чем феномен? За счет чего массовые вакансии закрываются быстрее? Может все дело в качестве?  





Гипотеза 4. Надоела комбинаторика, ударим главным орудием. 
Идея: делим все вакансии на 3 группы (за основу взяли распределение из Гипотезы 2). У нас есть для каждой вакансии появляется окно времени и 2 исхода. "Закрыли" "Не закрыли". Дальше проверяем факторы на влияние (случайно или не слуяайно).

Внимание: прошу удалить от экранов детей, впечатлительных и слабонервных. Сергею Иванову, спасибо за идею! 

Итак: Логистическая регрессия для вакансий закрытых до 60 дней. 


Call:
glm(formula = status ~ manager + HR + category + fibanachi + 
    pipeline1 + pipeline2 + pipeline3 + pipeline4 + season_start, 
    family = binomial, data = df1)

Deviance Residuals: 
      Min         1Q     Median         3Q        Max  
3.971e-06  3.971e-06  3.971e-06  3.971e-06  3.971e-06  

Coefficients: (1 not defined because of singularities)
                 Estimate Std. Error z value Pr(>|z|)
(Intercept)     2.557e+01  3.992e+05       0        1
managerAyou    -1.768e-25  3.567e+05       0        1
managerEyou    -1.394e-24  4.002e+05       0        1
managerIM      -7.360e-25  3.570e+05       0        1
managerIS      -1.607e-25  3.276e+05       0        1
managerTD       2.285e-25  2.366e+05       0        1
managerYaK     -2.500e-25  2.517e+05       0        1
managerYouSh   -3.173e-25  4.636e+05       0        1
managerYouV    -3.569e-25  1.939e+05       0        1
HRKM            4.464e-25  2.035e+05       0        1
HRLL           -3.672e-09  3.966e+05       0        1
HRSvSh         -1.306e-25  2.289e+05       0        1
HRTN            1.820e-25  1.595e+05       0        1
categoryitr     5.772e-26  1.975e+05       0        1
categoryoit    -1.181e-25  3.727e+05       0        1
categoryoz      2.188e-25  3.597e+05       0        1
categorysales          NA         NA      NA       NA
categoryworker -7.330e-25  3.756e+05       0        1
fibanachi       4.129e-26  2.824e+04       0        1
pipeline1      -7.471e-27  6.339e+03       0        1
pipeline2      -1.530e-27  7.590e+03       0        1
pipeline3       6.403e-26  2.002e+04       0        1
pipeline4       5.753e-27  4.278e+04       0        1
season_start    5.903e-27  6.071e+03       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 0.0000e+00  on 35  degrees of freedom
Residual deviance: 5.6772e-10  on 13  degrees of freedom
  (137 observations deleted due to missingness)
AIC: 46

Number of Fisher Scoring iterations: 24


Логистическая регрессия для вакансий закрытых от 60 до 150 дней

Call:
glm(formula = status ~ manager + HR + category + fibanachi + 
    pipeline1 + pipeline2 + pipeline3 + pipeline4 + season_start, 
    family = binomial, data = df2)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)
(Intercept)     2.557e+01  4.266e+05       0        1
managerAyou     8.103e-24  5.948e+05       0        1
managerEyou     4.825e-24  7.000e+05       0        1
managerIM       2.484e-24  3.103e+05       0        1
managerIS       7.381e-24  5.583e+05       0        1
managerNK       9.075e-24  6.189e+05       0        1
managerTD       6.800e-24  5.615e+05       0        1
managerYaK      4.500e-24  2.969e+05       0        1
managerYouSh    8.146e-25  5.195e+05       0        1
managerYouV     1.141e-24  2.487e+05       0        1
HRDK           -6.095e-09  5.490e+05       0        1
HRER           -6.095e-09  5.513e+05       0        1
HRSvSh         -6.095e-09  4.318e+05       0        1
HRTN           -6.095e-09  7.820e+05       0        1
categoryitr     6.095e-09  5.120e+05       0        1
categoryoit     6.095e-09  4.250e+05       0        1
categoryoz      6.095e-09  5.207e+05       0        1
categorysales   6.095e-09  1.083e+06       0        1
categoryworker  6.095e-09  6.255e+05       0        1
fibanachi       3.320e-25  2.264e+04       0        1
pipeline1       5.169e-26  5.260e+03       0        1
pipeline2      -1.810e-25  7.555e+03       0        1
pipeline3      -3.120e-25  1.956e+04       0        1
pipeline4       1.159e-24  5.593e+04       0        1
season_start    1.362e-25  8.956e+03       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 0.0000e+00  on 28  degrees of freedom
Residual deviance: 4.5733e-10  on  4  degrees of freedom
  (104 observations deleted due to missingness)
AIC: 50

Number of Fisher Scoring iterations: 24

Логистическая регрессия для вакансий закрытых после 150 дней

Call:
glm(formula = status ~ manager + HR + category + fibanachi + 
    pipeline1 + pipeline2 + pipeline3 + pipeline4 + season_start, 
    family = binomial, data = df3)

Deviance Residuals: 
      Min         1Q     Median         3Q        Max  
3.971e-06  3.971e-06  3.971e-06  3.971e-06  3.971e-06  

Coefficients: (1 not defined because of singularities)
                Estimate Std. Error z value Pr(>|z|)
(Intercept)    2.557e+01  5.097e+05       0        1
managerAyou   -1.313e-21  6.252e+05       0        1
managerIM      5.899e-22  2.984e+05       0        1
managerIS      1.950e-21  3.191e+05       0        1
managerNK      2.646e-21  4.944e+05       0        1
managerTD     -4.266e-22  3.638e+05       0        1
managerYaK     7.740e-22  4.516e+05       0        1
managerYouSh   4.762e-23  4.009e+05       0        1
managerYouV    2.919e-22  2.751e+05       0        1
HRER          -4.569e-22  1.681e+05       0        1
HRSvSh        -2.315e-06  4.017e+05       0        1
HRTN          -2.054e-21  3.735e+05       0        1
categoryitr   -4.445e-22  2.478e+05       0        1
categoryoit    2.315e-06  3.241e+05       0        1
categoryoz     2.315e-06  3.077e+05       0        1
categorysales         NA         NA      NA       NA
fibanachi      2.455e-23  2.257e+04       0        1
pipeline1      1.686e-23  2.825e+03       0        1
pipeline2      5.275e-24  3.863e+03       0        1
pipeline3     -2.281e-23  1.119e+04       0        1
pipeline4     -6.505e-23  2.293e+04       0        1
season_start  -3.593e-23  1.133e+04       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 0.0000e+00  on 28  degrees of freedom
Residual deviance: 4.5733e-10  on  8  degrees of freedom
  (58 observations deleted due to missingness)
AIC: 42


Number of Fisher Scoring iterations: 24


Вместо П.С.: а дальше что? мы описали прошлый результат, который:  "+/- километр был итак было понятно..." скажет заказчик и начнет притягивать свое понимание к полученным результатам. 


Вопросы:
1. Как теперь вытащить соль из анализа? другими словами как упаковать цифры в рекомендации.
2. Как Заказчику "нежно" продать пользу. Без шоков и терминов.
3. Ошибки анализа?

Пока вы помогаете нам понять дальнейший план действий. Мы собираем данные для остальных гипотез. Самая "вкуснятина" впереди: взялись строить web сервис. Заказчик вводит требования, а машинка скажет за нас срок закрытия. 


до встречи!

обсуждение здесь происходит Telegram

Комментариев нет:

Отправить комментарий