Share |

вторник, 13 января 2015 г.

Как предсказать увольнение работника по результатам электронного курса

.Представляете идею: человек у нас проходит электронный он лайн курс, что то делает, а мы по результатам курса говорим: это уволится, а этот... попозже уволится...
Ну вот мы приближаемся к этой фантастике.
Аналитика в дистанционном обучении (кейс для работы)
Напомню: в кейсе есть данные оценок удовлетворенности электронным курсом, и есть стаж работы в компании работника.
Сразу результаты
Непараметрическая регрессия показывает значимые различия между "отличниками" (кто ставил "5" за курс) и "хорошистами", "отличниками" и "троечниками" (для спецов сообщаю, что использовал непараметрическую регрессию, учитывая также стаж тех, кто не уволился).
Грустно, что R^2 = 0, 001, но он значим
Посмотрите на статистики
$`3`
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    6.0   114.8   258.0   425.8   561.0  3570.0

$`4`
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    2.0   101.0   241.0   402.7   525.0  4513.0

$`5`
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    1.0   101.0   224.0   368.7   496.0  4743.0

Как предсказать увольнение работника по результатам электронного курса


Шибздануться, правда? Те, кто оценивают курс на "4" или "3" работают в компании значимо дольше.
Но обращаю Ваше внимание: данные "грязные", много bullshit, непонятен инициатор увольнения, поэтому еще много вопросов к выводам.

24 комментария:

  1. Эдуард, а какую модель задавали для непараметрической регрессии?

    ОтветитьУдалить
    Ответы
    1. Максим, это и есть предмет семинара по управлению текучестью.
      помните, мы с вами обсуждали на семинаре
      у управления текучестью зависимая переменная - стаж работника

      там есть две проблемы:

      1) стаж имеет не нормальное распределение
      2) есть группа работников, которые не уволились на момент исследования

      т..е переменная как бы не закрыта справа - понимаете, про что я ?

      так вот непараметрическая регрессия позволяет преодолеть эти проблемы

      Удалить
  2. Странно, не дошел мой коммент что-ли?

    ОтветитьУдалить
    Ответы
    1. "Эдуард, а какую модель задавали для непараметрической регрессии?"
      я ответил

      Удалить
  3. Я подумал, что это нелинейная регрессия в СПСС, где нужно задавать предполагаемую функцию зависимости.

    ОтветитьУдалить
    Ответы
    1. в этом случае речь идет о характере связи между двумя переменными
      а я говоре о распределении переменной.
      помните, кейс про Москву и Питер, как выбросы искажают показатели регрессии?

      Удалить
  4. Да, Москва и Питер делали ту выборку ненормально распределенной. Решение непараметрической регрессии есть в SPSS или только R?

    ОтветитьУдалить
    Ответы
    1. давайте мы по другому поступим
      http://edwvb.blogspot.ru/2015/01/analitika-v-distancionnom-obuchenii.html
      вот здесь скачайте файл с данными
      и постройте распределение стажа
      так я вас буду вести к регрессии

      Удалить
    2. Максим, а еще лучше - сделайте по данным своей компании

      Удалить
  5. Как оцениваем стаж еще работающих?

    ОтветитьУдалить
  6. у вас будут 4 колонки
    1) дата приема
    2) дата увольнения (если человек не уволен, то дата увольнения будет заполнена датой формирования отчета)
    3) событи: 1 - если уволился и 0 - работает
    4) стаж как разница между датой увольнения и датой приема

    ОтветитьУдалить
  7. У себя есть данные по руководителям продавцов: стаж и источник прихода в компанию (внешний внутренний), помните писал? Вопрос - какой стаж считаем у сотрудника, если он сейчас работает? или просто вводим отдельную переменную и это отдельная группа для анализа?

    ОтветитьУдалить
  8. Максим, вы не прочитали мой коммент?

    у вас будут 4 колонки
    1) дата приема
    2) дата увольнения (если человек не уволен, то дата увольнения будет заполнена датой формирования отчета)
    3) событи: 1 - если уволился и 0 - работает
    4) стаж как разница между датой увольнения и датой приема

    ОтветитьУдалить
  9. по поводу помню / не помню: у меня только на этой неделе три компании прислали данные, как я могу помнить?

    ОтветитьУдалить
  10. Эдуард, построил распределение стажа. Критерий Колмогорова-Смирнова (0,000) показывает, что распределение не нормальное, да и так видно. Положительная правосторонняя ассиметрия

    ОтветитьУдалить
    Ответы
    1. теперь следующий шаг: надо добавить колонку
      1) причина увольнения : сам или самого
      2) есть у вас статистика источников трафика? тестирования при приеме?

      Удалить
  11. причину увольнений добавил, данные теста проф. знаний при приеме добавлю в понедельник - нужно уточнить. Источники трафика - это прием на работу -свои или со стороны? Или другое?

    ОтветитьУдалить
    Ответы
    1. источник трафика - это вопрос "как вы узнали о вакансии"
      можете еще вопрос добавить "есть ли у вас хороший знакомый в компании"

      Удалить
  12. По 2 вопросу - в смысле "был ли знакомый на момент устройства?"

    ОтветитьУдалить
  13. Эдуард, данные собрал: месяц приема, стаж, кандидат внутр/внеш, работает в данный момент или нет, источник трафика, инициатор увольнения, были ли знакомые в компании. Каждый сотрудник в 1 месяц работы проходил программу вводного обучения - есть % прохождения.

    ОтветитьУдалить
  14. присылайте, посмотрю на выходные

    ОтветитьУдалить
  15. ок, выслал. А как к непараметрической регрессии подойти?

    ОтветитьУдалить
    Ответы
    1. посмотрю на данные, покажу вам решение

      Удалить