Добрейшего!
Кто хочет больше узнать про нашу команду см. "Мы продолжаем врезаться в стены, но пересели на велосипеды и самокаты"
Продолжаем решать кейс: Как повысить своевременность подбора до 95%?
Этот пост создан как алгоритм дизайна исследования. Желающие могут повторить. Все скрипты целы и сохранны.
Историю кейса можно найти по ссылке: <На работу срочно требуется data психолог !!! :( data аналитикам, просьба не беспокоить...>
Итак, мы проверяем гипотезы полученные в ходе интервью с экспертами (спасибо за идею Евгению Бондаренко).
Гипотеза1. Рекрутер влияет на срок дожития вакансии. Ограничение: вакансии распределяются между рекрутерами категориям персонала и сложности добычи кандидатов.
Пф... Слишком много цветов. Хотя можем визуально оценить кто из рекрутеров быстрее справляется с вакансией.
Как читать графики дожития? <Эдуард Бабушкин> или <Евгений Бондаренко> или еще много кто...
Гипотеза 2. HR менеджер влияет на срок дожития своих вакансий. Ограничение: вакансии не равномерно распределены среди HR. Наблюдение: если не закрыли за 60 дней дальше дела идут хуже. Не закрыли за 150 дней, дальше дело случая. Как в анекдоте: "а неудачники у нас не работают"
Гипотеза 3. Категория вакансии влияет на срок закрытия. Ограничение: внутри категории вакансии могут иметь разную сложность добычи ЛИДа. Очевидно, что это самая полезная информация. Здесь будет больше цифр.
Наблюдение: одни категории проще других (Капитан Очевидность, 2019). В чем феномен? За счет чего массовые вакансии закрываются быстрее? Может все дело в качестве?
Гипотеза 4. Надоела комбинаторика, ударим главным орудием.
Идея: делим все вакансии на 3 группы (за основу взяли распределение из Гипотезы 2). У нас есть для каждой вакансии появляется окно времени и 2 исхода. "Закрыли" "Не закрыли". Дальше проверяем факторы на влияние (случайно или не слуяайно).
Внимание: прошу удалить от экранов детей, впечатлительных и слабонервных. Сергею Иванову, спасибо за идею!
Итак: Логистическая регрессия для вакансий закрытых до 60 дней.
Call:
glm(formula = status ~ manager + HR + category + fibanachi +
pipeline1 + pipeline2 + pipeline3 + pipeline4 + season_start,
family = binomial, data = df1)
Deviance Residuals:
Min 1Q Median 3Q Max
3.971e-06 3.971e-06 3.971e-06 3.971e-06 3.971e-06
Coefficients: (1 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.557e+01 3.992e+05 0 1
managerAyou -1.768e-25 3.567e+05 0 1
managerEyou -1.394e-24 4.002e+05 0 1
managerIM -7.360e-25 3.570e+05 0 1
managerIS -1.607e-25 3.276e+05 0 1
managerTD 2.285e-25 2.366e+05 0 1
managerYaK -2.500e-25 2.517e+05 0 1
managerYouSh -3.173e-25 4.636e+05 0 1
managerYouV -3.569e-25 1.939e+05 0 1
HRKM 4.464e-25 2.035e+05 0 1
HRLL -3.672e-09 3.966e+05 0 1
HRSvSh -1.306e-25 2.289e+05 0 1
HRTN 1.820e-25 1.595e+05 0 1
categoryitr 5.772e-26 1.975e+05 0 1
categoryoit -1.181e-25 3.727e+05 0 1
categoryoz 2.188e-25 3.597e+05 0 1
categorysales NA NA NA NA
categoryworker -7.330e-25 3.756e+05 0 1
fibanachi 4.129e-26 2.824e+04 0 1
pipeline1 -7.471e-27 6.339e+03 0 1
pipeline2 -1.530e-27 7.590e+03 0 1
pipeline3 6.403e-26 2.002e+04 0 1
pipeline4 5.753e-27 4.278e+04 0 1
season_start 5.903e-27 6.071e+03 0 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 0.0000e+00 on 35 degrees of freedom
Residual deviance: 5.6772e-10 on 13 degrees of freedom
(137 observations deleted due to missingness)
AIC: 46
Number of Fisher Scoring iterations: 24
Логистическая регрессия для вакансий закрытых от 60 до 150 дней
Call:
glm(formula = status ~ manager + HR + category + fibanachi +
pipeline1 + pipeline2 + pipeline3 + pipeline4 + season_start,
family = binomial, data = df2)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.557e+01 4.266e+05 0 1
managerAyou 8.103e-24 5.948e+05 0 1
managerEyou 4.825e-24 7.000e+05 0 1
managerIM 2.484e-24 3.103e+05 0 1
managerIS 7.381e-24 5.583e+05 0 1
managerNK 9.075e-24 6.189e+05 0 1
managerTD 6.800e-24 5.615e+05 0 1
managerYaK 4.500e-24 2.969e+05 0 1
managerYouSh 8.146e-25 5.195e+05 0 1
managerYouV 1.141e-24 2.487e+05 0 1
HRDK -6.095e-09 5.490e+05 0 1
HRER -6.095e-09 5.513e+05 0 1
HRSvSh -6.095e-09 4.318e+05 0 1
HRTN -6.095e-09 7.820e+05 0 1
categoryitr 6.095e-09 5.120e+05 0 1
categoryoit 6.095e-09 4.250e+05 0 1
categoryoz 6.095e-09 5.207e+05 0 1
categorysales 6.095e-09 1.083e+06 0 1
categoryworker 6.095e-09 6.255e+05 0 1
fibanachi 3.320e-25 2.264e+04 0 1
pipeline1 5.169e-26 5.260e+03 0 1
pipeline2 -1.810e-25 7.555e+03 0 1
pipeline3 -3.120e-25 1.956e+04 0 1
pipeline4 1.159e-24 5.593e+04 0 1
season_start 1.362e-25 8.956e+03 0 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 0.0000e+00 on 28 degrees of freedom
Residual deviance: 4.5733e-10 on 4 degrees of freedom
(104 observations deleted due to missingness)
AIC: 50
Number of Fisher Scoring iterations: 24
Логистическая регрессия для вакансий закрытых после 150 дней
Call:
glm(formula = status ~ manager + HR + category + fibanachi +
pipeline1 + pipeline2 + pipeline3 + pipeline4 + season_start,
family = binomial, data = df3)
Deviance Residuals:
Min 1Q Median 3Q Max
3.971e-06 3.971e-06 3.971e-06 3.971e-06 3.971e-06
Coefficients: (1 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.557e+01 5.097e+05 0 1
managerAyou -1.313e-21 6.252e+05 0 1
managerIM 5.899e-22 2.984e+05 0 1
managerIS 1.950e-21 3.191e+05 0 1
managerNK 2.646e-21 4.944e+05 0 1
managerTD -4.266e-22 3.638e+05 0 1
managerYaK 7.740e-22 4.516e+05 0 1
managerYouSh 4.762e-23 4.009e+05 0 1
managerYouV 2.919e-22 2.751e+05 0 1
HRER -4.569e-22 1.681e+05 0 1
HRSvSh -2.315e-06 4.017e+05 0 1
HRTN -2.054e-21 3.735e+05 0 1
categoryitr -4.445e-22 2.478e+05 0 1
categoryoit 2.315e-06 3.241e+05 0 1
categoryoz 2.315e-06 3.077e+05 0 1
categorysales NA NA NA NA
fibanachi 2.455e-23 2.257e+04 0 1
pipeline1 1.686e-23 2.825e+03 0 1
pipeline2 5.275e-24 3.863e+03 0 1
pipeline3 -2.281e-23 1.119e+04 0 1
pipeline4 -6.505e-23 2.293e+04 0 1
season_start -3.593e-23 1.133e+04 0 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 0.0000e+00 on 28 degrees of freedom
Residual deviance: 4.5733e-10 on 8 degrees of freedom
(58 observations deleted due to missingness)
AIC: 42
Number of Fisher Scoring iterations: 24
Вместо П.С.: а дальше что? мы описали прошлый результат, который: "+/- километр был итак было понятно..." скажет заказчик и начнет притягивать свое понимание к полученным результатам.
Вопросы:
1. Как теперь вытащить соль из анализа? другими словами как упаковать цифры в рекомендации.
2. Как Заказчику "нежно" продать пользу. Без шоков и терминов.
3. Ошибки анализа?
Пока вы помогаете нам понять дальнейший план действий. Мы собираем данные для остальных гипотез. Самая "вкуснятина" впереди: взялись строить web сервис. Заказчик вводит требования, а машинка скажет за нас срок закрытия.
до встречи!
обсуждение здесь происходит Telegram
Комментариев нет:
Отправить комментарий