Share |

четверг, 4 февраля 2016 г.

Алгоритмы выявления звезд: дерево решения в R и Python

Прохожу курс Высшей Школы Экономики по машинному обучению, где основной программой анализа является Python.
Хочу показать разницу в алгоритме Decision Trees.
Вот эта задача Отбираем "звезд" на этапе подбора с помощью тестов. Суть проста: при входе в компанию кандидаты проходили тестирование, спустя время их экспертным методом причисляли к звездам или не звездам. И на основе классификации создавали алгоритм отбора.
Я уверен, что со временем  многие компании создадут свои подобные алгоритмы выявления звезд.
Обращайтесь, кстати, Прогноз успешности кандидатов на основе тестов
 Сверху алгоритм Python, снизу - R. Обратите внимание, что шкалы отбора выбраны программы выбраны одинаковые - Sp и Fx, граница Sp - 56, только Python больше или равно 56, а R больше 56, а граница Fx 50 и 44.
В R цифры следующее обозначает: если кандидат набирает менее 56 баллов по шкале Sp, то с вероятностью 90 % он не звезда, если он набирает более 56 баллов и менее 50 по шкале Fx, то с вероятностью 85 % он будет звездой.
В Python все похоже: сначала идет обозначение границы, потом критерий gini (это специфичный критерий, показывающий способность границы делить классы), samples - количество кандидатов в данной точке, value - количество звезд / не звезд в данной точке.
Т.е. если кандидат показывает больше 56 баллов по Sp и меньше или равно 44 по Fx, то вы с вероятностью 86 % звезда. Вероятность так считается: 18 / 21 = 85, 7 %

Комментариев нет:

Отправить комментарий

рек