Share |

вторник, 24 мая 2016 г.

Какие факторы влияют на рост ЗП


Взяла самый простой случай – задачу по бинарной классификации. Простой случай  для меня не с точки зрения технической реализации, а с точки зрения интерпретации результатов. Вопрос, на который искала ответ – будет или нет повышение ЗП, какие факторы на это влияют. Результаты возьму на вооружение.
У меня есть данные 1 329 респондентов, не постеснявшихся указать размер ЗП при приеме на работу и на момент заполнения опроса, либо увольнения из компании. Считаю дельту между ними, и во избежание дальнейших недоразумений при построении модели, поля с ЗП  удаляю из анализа. Иначе рискую получить 100% точность прогноза, только ценности в будущем у него будет маловато.

Для поиска ответа использовала xgboost, точнее его подверсию, позволяющую работать с библиотекой scikit-learn. Вторая мне была нужна для поиска оптимальных параметров модели. Подбор по всем параметрам не запускала, но в работе их было достаточно.

Итак, модель получена, для оценки ее качества использовала следующие метрики. 

Accuracy (доля правильных ответов) на обучающей выборке 0,7986, на тестовой 0,7295. Переобучения нет, хотя с таким результатом на тесте это не очень важно.
На всякий случай построила графики ROC и PRC, видимо чтобы еще раз зрительно убедится, что модель дает достаточную точность. Заодно проверила, какой порог классификации наилучший (при построении использован классический 0,5). Проверила – 0,5079.

 
Матрица ошибок на тестовой выборке:
Факт - повысят
Факт – не повысят
Прогноз - повысят
74
31
Прогноз – не повысят
25
77
Моя модель правильно определила класс для 74 + 77 = 151 случаев на тестовой выборке, ошиблась в 25 + 31 = 56. Пока лучше не получается, но это и не физика.
Итак, я подошла к самой интересной для меня части, той, ради чего все затевалось - интерпретация результатов.
Про стаж работы в компании я молчу, тут все понятно. Терпение и труд все перетрут. С годом трудоустройства (year) и возрастом при приеме на работу (увы) тоже ничего не сделаешь.
Но в пятерку лидеров попали факторы, связанные с выплатой премий, и наличие социального пакета в компании. Учту, в будущем обязательно буду спрашивать на собеседовании об этом - премии выплачиваются нерегулярно  и/или нет ДМС, повод задуматься. Удивительно, что разница в возрасте с руководителем тоже играет не самую маленькую роль. Особенно приятно видеть, что самостоятельное обучение может повлиять на пересмотр твоего оклада. Coursera forever!
В общем, обсуждать результаты можно дальше. Уверенна, каждый может сделать свои выводы, а может даже что-то проверить на собственном опыте)))
 

Комментариев нет:

Отправить комментарий