Share |

среда, 27 июля 2016 г.

Кейс по импутации данных при создании модели прогноза эффективности персонала

У меня в выборке было почти 2 000 человек, у которых были полные результаты по одному тесту (а), а другого теста (в) было на 200 результатов меньше.
В данном случае две стратегии:

  1. удалить часть выборки у кого нет результатов по тесту "в" и запускать алгоритм только по чистым данным. Тогда у нас останется примерно 1 800 строк в выборке
  2. Импутация данных - заменить пропущенные значения теста "в" какими -то значениями. Я использовал метод median - т.е. заменил эти 200 значения медианными значениями по всей выборке каждой шкалы (ну т.е. мы берем шкалу, вычисляем медиану, вставляем ее в незаполненные ячейки, далее переходим к новой шкале и т.д..)

Возникает вопрос, а имеем ли мы право так поступать: ставить какие то сглаженные значения? Как они повлияют на анализ? В нашем случае мы можем понять ответы на этот вопрос, если поймем, как эти стратегии влияют на качество модели. Т.е. если при методе импутации данных качество данных не пострадает, то мы можем его применять
Я реализовал обе стратегии: с импутацией данных и без.
В первом случае показатель при кросс валидации показал R^2 = 0, 16, во втором случае при импутации данных R^2 = 0, 146.
Драматического различия не обнаружено, можем пользоваться импутацией.
Почему это важно? Потому что помимо, собственно, результатов теста у нас есть полные переменные: пол, возраст, стаж, позиция, подразделение, регион и т.п. и терять 200 наблюдений никак не хочется
ну и вот такая картинка

  • По оси X - прогнозные значения;
  • По оси Y - реальные. 

Кейс по импутации данных


Комментариев нет:

Отправить комментарий

рек