.Представляете идею: человек у нас проходит электронный он лайн курс, что то делает, а мы по результатам курса говорим: это уволится, а этот... попозже уволится...
Ну вот мы приближаемся к этой фантастике.
Аналитика в дистанционном обучении (кейс для работы)
Напомню: в кейсе есть данные оценок удовлетворенности электронным курсом, и есть стаж работы в компании работника.
Сразу результаты
Непараметрическая регрессия показывает значимые различия между "отличниками" (кто ставил "5" за курс) и "хорошистами", "отличниками" и "троечниками" (для спецов сообщаю, что использовал непараметрическую регрессию, учитывая также стаж тех, кто не уволился).
Грустно, что R^2 = 0, 001, но он значим
Посмотрите на статистики
$`3`
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.0 114.8 258.0 425.8 561.0 3570.0
$`4`
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.0 101.0 241.0 402.7 525.0 4513.0
$`5`
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.0 101.0 224.0 368.7 496.0 4743.0
Шибздануться, правда? Те, кто оценивают курс на "4" или "3" работают в компании значимо дольше.
Но обращаю Ваше внимание: данные "грязные", много bullshit, непонятен инициатор увольнения, поэтому еще много вопросов к выводам.
Ну вот мы приближаемся к этой фантастике.
Аналитика в дистанционном обучении (кейс для работы)
Напомню: в кейсе есть данные оценок удовлетворенности электронным курсом, и есть стаж работы в компании работника.
Сразу результаты
Непараметрическая регрессия показывает значимые различия между "отличниками" (кто ставил "5" за курс) и "хорошистами", "отличниками" и "троечниками" (для спецов сообщаю, что использовал непараметрическую регрессию, учитывая также стаж тех, кто не уволился).
Грустно, что R^2 = 0, 001, но он значим
Посмотрите на статистики
$`3`
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.0 114.8 258.0 425.8 561.0 3570.0
$`4`
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.0 101.0 241.0 402.7 525.0 4513.0
$`5`
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.0 101.0 224.0 368.7 496.0 4743.0
Шибздануться, правда? Те, кто оценивают курс на "4" или "3" работают в компании значимо дольше.
Но обращаю Ваше внимание: данные "грязные", много bullshit, непонятен инициатор увольнения, поэтому еще много вопросов к выводам.
Эдуард, а какую модель задавали для непараметрической регрессии?
ОтветитьУдалитьМаксим, это и есть предмет семинара по управлению текучестью.
Удалитьпомните, мы с вами обсуждали на семинаре
у управления текучестью зависимая переменная - стаж работника
там есть две проблемы:
1) стаж имеет не нормальное распределение
2) есть группа работников, которые не уволились на момент исследования
т..е переменная как бы не закрыта справа - понимаете, про что я ?
так вот непараметрическая регрессия позволяет преодолеть эти проблемы
Странно, не дошел мой коммент что-ли?
ОтветитьУдалить"Эдуард, а какую модель задавали для непараметрической регрессии?"
Удалитья ответил
Я подумал, что это нелинейная регрессия в СПСС, где нужно задавать предполагаемую функцию зависимости.
ОтветитьУдалитьв этом случае речь идет о характере связи между двумя переменными
Удалитьа я говоре о распределении переменной.
помните, кейс про Москву и Питер, как выбросы искажают показатели регрессии?
Да, Москва и Питер делали ту выборку ненормально распределенной. Решение непараметрической регрессии есть в SPSS или только R?
ОтветитьУдалитьдавайте мы по другому поступим
Удалитьhttp://edwvb.blogspot.ru/2015/01/analitika-v-distancionnom-obuchenii.html
вот здесь скачайте файл с данными
и постройте распределение стажа
так я вас буду вести к регрессии
Максим, а еще лучше - сделайте по данным своей компании
УдалитьКак оцениваем стаж еще работающих?
ОтветитьУдалитьу вас будут 4 колонки
ОтветитьУдалить1) дата приема
2) дата увольнения (если человек не уволен, то дата увольнения будет заполнена датой формирования отчета)
3) событи: 1 - если уволился и 0 - работает
4) стаж как разница между датой увольнения и датой приема
У себя есть данные по руководителям продавцов: стаж и источник прихода в компанию (внешний внутренний), помните писал? Вопрос - какой стаж считаем у сотрудника, если он сейчас работает? или просто вводим отдельную переменную и это отдельная группа для анализа?
ОтветитьУдалитьМаксим, вы не прочитали мой коммент?
ОтветитьУдалитьу вас будут 4 колонки
1) дата приема
2) дата увольнения (если человек не уволен, то дата увольнения будет заполнена датой формирования отчета)
3) событи: 1 - если уволился и 0 - работает
4) стаж как разница между датой увольнения и датой приема
по поводу помню / не помню: у меня только на этой неделе три компании прислали данные, как я могу помнить?
ОтветитьУдалитьЭдуард, построил распределение стажа. Критерий Колмогорова-Смирнова (0,000) показывает, что распределение не нормальное, да и так видно. Положительная правосторонняя ассиметрия
ОтветитьУдалитьтеперь следующий шаг: надо добавить колонку
Удалить1) причина увольнения : сам или самого
2) есть у вас статистика источников трафика? тестирования при приеме?
причину увольнений добавил, данные теста проф. знаний при приеме добавлю в понедельник - нужно уточнить. Источники трафика - это прием на работу -свои или со стороны? Или другое?
ОтветитьУдалитьисточник трафика - это вопрос "как вы узнали о вакансии"
Удалитьможете еще вопрос добавить "есть ли у вас хороший знакомый в компании"
По 2 вопросу - в смысле "был ли знакомый на момент устройства?"
ОтветитьУдалитьверно
УдалитьЭдуард, данные собрал: месяц приема, стаж, кандидат внутр/внеш, работает в данный момент или нет, источник трафика, инициатор увольнения, были ли знакомые в компании. Каждый сотрудник в 1 месяц работы проходил программу вводного обучения - есть % прохождения.
ОтветитьУдалитьприсылайте, посмотрю на выходные
ОтветитьУдалитьок, выслал. А как к непараметрической регрессии подойти?
ОтветитьУдалитьпосмотрю на данные, покажу вам решение
Удалить