.

Сделать репост в соц сети!

четверг, 18 февраля 2016 г.

Прогноз предлагаемой зарплаты по описанию вакансии


В России уже такое делал ХХ, я не вижу в этом ничего интересного с т.з. продукта, но зато я вижу кучу возможностей для применения самого алгоритма.
Фишка в том, что в качестве независимых переменных у нас выступает текст. Не цифры, не категориальные переменные, а текст.
Вот пример того, как данные оформлены
FullDescription
LocationNormalized
ContractTime
SalaryNormalized
1
International Sales Manager London ****k ****...
London
permanent
33000
2
An ideal opportunity for an individual that ha...
London
permanent
50000
3
Online Content and Brand Manager// Luxury Reta...
South East London
permanent
40000
4
A great local marketleader is seeking a perman...
Dereham
permanent
22500
5
Registered Nurse / RGN Nursing Home for Young...
Sutton Coldfield
NaN
20355

В эту таблицу мы фактически закачали вакансии с job сайта.
  • FullDescription - это описание вакансии
  • LocationNormalized - место расположение вакансии
  • ContractTime - постоянно или по контракту
  • SalaryNormalized - уровень оплаты в английских рублях
Задача - спрогнозировать, какой будет оклад вакансии, если есть описание, а сам оклад не указан.
Прогноз предлагаемой зарплаты по описанию вакансии

Это у нас распределение зависимой переменной - уровня оплаты.
Среднее значение - 34 000 р
Медиана - 30 000 р
Стандартное отклонение - 17 500 - ну здесь разброс очень большой, поскольку выбросы вправо.
Строим уравнение регрессии, где Y - это размер зарплаты, а независимые переменные - все остальные (описание, локация, контракт)
Прогноз предлагаемой зарплаты по описанию вакансии
На этой картинке показана диаграмма прогнозных (ось X) и реальных (ось Y) значений зарплаты (всего в данных содержится 60 000 вакансий, поэтому такая большая плотность точек). Если бы мы давали 100 % точный прогноз, у нас была бы прямая линия на графике. Но мы, конечно же, не даем 100 % правильного прогноза. Показатели качества модели у нас такие:
  • R^2 - 0, 72
  • Средняя ошибка - 9 100 английских рублей. 
Я бы оценил это как средний уровень качества прогноза.Но понятно, что с моделью можно еще играться с т.з. повышения качества. 
В качестве фантазии: где бы вы хотели применить анализ текста? 

воскресенье, 14 февраля 2016 г.

Контрольная карта Шухарта в управлении hr бизнес процессами (на основе текучести персонала)



Приведу достаточно простой пример контрольной карты Шухарта на основе процесса управления текучестью персонала.
Контрольная карта Шухарта в управлении hr бизнес процессами (на основе текучести персонала)
У нас есть данные о текучести персонала по месяцам (на картинке ось X - 1 январь, 12 - декабрь, и по оси Y - количество уволившихся). У вас в компании могут быть данные за бОльшее количество лет, вы можете проанализировать бОльшее количество данных.
На данной картинке задача вырисовывается просто: можно ли бить в набат по апрельским данным?
В excel таблица будет выглядеть так
январь
9
февраль
7
март
11
апрель
19
май
9
июнь
9
июль
9
август
13
сентябрь
13
октябрь
13
ноябрь
12
декабрь
14

Считаем среднее и стандартное отклонение
Среднее = 11, 5
Стандартное отклонение = 3, 23
Вспоминаем нормальное распределение
У нас + два стандартных отклонения дают более 95 % событий.
Считаем для нашего кейса
11, 5 + 3, 23 * 2 = 17, 96
17, 96 (давайте возьмем 18) - порог, выше которого нужно бежать вприпрыжку - в смысле думать, а с чего бы это. 
В апреле уволилось 19 человек. Делаем вывод, что отклонение значимое для данного набора данных, следовательно за увольнениями в апреле стоит какая - то причина, которую надо выяснять. Ну а дальше уже управленческие действия - профилактика, усиление эффекта и т.п..
В идеале стоит нарисовать картинку в excel, где значения увольнений показаны линией, а на графике еще три прямые:
  1. 11, 5 - центральная линия, 
  2. 17, 96 - верхняя линия / граница
  3. 5,05 - нижняя линия / граница.
выход на рамки 5 и 18 - красная лампочка. Рисовать не буду, пусть будет вам домашнее задание. 


понедельник, 8 февраля 2016 г.

Семинар - практикум "Аналитика для HR", 17-18 июня, Владивосток

Анонсирую свой семинар во Владивостоке 17-18 июня. Для подачи заявки воспользуйтесь контактами менеджера внизу страницы.
О семинаре
Посчитать корреляцию сейчас многие умеют. Посчитать, сколько стоит корреляция в бизнесе - единицы. На семинаре я учу, как корреляцию превращать в доходы компании.
Семинар про управление HR-бизнес процессами: бизнес ставит проблему, мы ее форматируем, моделируем, оцифровываем данные, выявляем ключевые драйверы, интерпретируем и ... управляем... На Западе это обозначается как BigData в HR, я называю просто - Аналитика для HR

Формат
Мастер-класс. Участники в начале семинара получают раздаточный материал в электронном виде. Семинар представляет из себя последовательное решение в рабочем файле excel кейсов, объединенных логикой подачи материала. 90 % кейсов взяты из реальной практики, чаще всего от участников прошлых семинаров.

Для кого
Семинар будет полезен в первую очередь тем, кто хотел бы управлять эффективностью и текучестью персонала: выявлять на этапе подбора наиболее эффективных кандидатов, кандидатов, склонных к быстрому уходу из компании, оценивать эффективность обучения и, в более широком смысле, эффективность практик компании (как, пример, оценить эффективность программы рекомендательного рекрутинга с т.з. повышения эффективности и снижения текучести персонал, как оценить эффективность рекламной компании по привлечению кандидатов, как оценить эффективность обучения и т.д. и т.п.. ) Резюме: для тех, кто хочет показывать бизнесу, как HR влияет на бизнес показатели.

Программа семинара: 

Вводная

  • Понятие hr-аналитики и области ее применения.
  • Примеры успешного внедрения аналитик: Западная и российская практика.
  • Правила чтения отчетов (обзоров зарплат, исследований рынка труда, бечмаркинговых отчетов) и практическое их применение.
  • Базовые термины аналитики и статистики.
  • Построение системы сбора данных в компании
Моделирование в аналитике
  • Постановка проблемы: проблему ставит бизнес
  • Переводим на свой язык: цели, модели и форматы решаемых задач
  • Гипотезы
  • "Оцифровка" данных
  • Типы данных
  • Представление и визуализация данных
Обработка и анализ данных
  • Вычисления в excel (формулы, сводные таблицы, "Пакет анализа")
  • Статистические методы обработки информации (матстатистика для HR)
  • Основные статистические критерии и методы
  • Прогноз, точность модели
  • Программы обработки данных: excel, SPSS

Условия участия:
НАЛИЧИЕ СВОЕГО НОУТБУКА с программой EXCEL (офис 2010-2016) под windows
Предупреждение, warning und achtung!

Если вас тошнит от формул, вычислений, Excel – этот мастер-класс вам противопоказан.

Чего не будет:
Я не буду говорить, какие HR-метрики "лучше". Будем учиться применять анализ для понимания того, какие показатели адекватны в какой ситуации.
Я не буду учить строить отчеты: сводные таблицы вам в помощь. Семинар не про построение отчетов, он про анализ информации.
Я не буду учить строить диаграммы: а только, в каком случае какой способ визуализации более релевантен.
Стоимость участия: 18000 рублей. В стоимость включены кофе-паузы и обеды.
По окончании программы выдается Сертификат.
Лицензия на право ведения образовательной деятельности № 425 от 18.07.2011 г.



Руководитель проекта Урманова Наталья,
сот. 8-904-629-02-64,

8(423)299-02-64

воскресенье, 7 февраля 2016 г.

О границах принятия решения по кандидату

Хочу познакомить с одним интересным термином, еще одной интересной техникой и проблемой в отборе персонала (настоящей проблемой, а не выдуманной)
В основе поста уже часто приводимый пример - Отбираем "звезд" на этапе подбора с помощью тестов.
Вводная: 87 работников экспертным путем поделены на "звезд" (эффективных) и "не звезд". Все они при приеме на работу проходили тестирование. Проведенный анализ выявил две шкалы, которые позволяли прогнозировать, будет ли кандидат "звездой" или "не звездой".
Визуально это выглядит так
"Звезды" - зеленые, а "не звезды" - красные. Заметно, что звезды не имеют показателей выше 50 баллов, по шкале Fx, а вот со шкалой Sp все сложнее. Здесь нет однозначного решения. Можно провести границу по 50 баллам, но тогда мы в "звезды" захватим не звезд... Если по 60 баллам, то многих "звезд" просто выкинем. Это проблема выбора границы.
Машинка может подсказать нам решение - Алгоритмы выявления звезд: дерево решения в R и Python. Вот каковы границы принятия решения, подсказанные машинкой
В данном случае машинка определяет звезд по границам:

  • Sp - 56 баллов;
  • Fx - 44 баллов.

Но точность модели при таких границах 83 % (т.е. мы в 83 % "попадаем" с прогнозом), а со звездами вообще проблема: у нас всего 29 "звезд", из них мы "звездами" отбираем 18, т.е. 62 %. Фактически каждую третью "звезду" мы пропускаем. Это прискорбно.
Можно поменять границы, но это уже проблема компромисса.

Гибкие границы

Но кто сказал, что границы принятия решения должны быть прямыми?
Машинка по нашей просьбе может нарисовать гибкие границы
О границах принятия решения по кандидату

Это тот же самый рисунок, где цвет обозначает "звезд" - синим и "не звезд" - красным. И границы, как видно, гибкие. При такой постановке задачи точность принятия решения достигает 90 %. Просто невероятная точность на сегодняшний день для наших компаний. Ну если не верить бреду тех консалтеров про 95 % точность. Напомню, что в Google приближаются к точности в 86 % см. Про качество подбора персонала на основе интервью.
И напомню: границы рисует машинка, а не человек, не пытайтесь повторить трюк)))
Удачи вам в отборе персонала)
И обращайтесь: я предоставляю услугу Прогноз успешности кандидатов на основе тестов

суббота, 6 февраля 2016 г.

HR прогнозы 2016 от Берзина

Самые полноценные прогнозы и тренды в HR дает Джош Берзин, это единственный западный спец, за кем я слежу системно, а не от случая к случаю.
Я прослушал его ебинар по прогнозам и даю слайдшоу с вебинара. Как мне кажется, слайды дают общее представление о докладе Берзина.
Понятно, что я публикую не все слайды часового вебинара, а только или с интересными данными, на мой взгляд, или концептуальные слайды.
Некоторые слайды мне, с т.з. аналитики, кажутся наивными, но судите сами
Адженда
HR прогнозы 2016 от Берзина

четверг, 4 февраля 2016 г.

Алгоритмы выявления звезд: дерево решения в R и Python



Прохожу курс Высшей Школы Экономики по машинному обучению, где основной программой анализа является Python.
Хочу показать разницу в алгоритме Decision Trees.
Вот эта задача Отбираем "звезд" на этапе подбора с помощью тестов. Суть проста: при входе в компанию кандидаты проходили тестирование, спустя время их экспертным методом причисляли к звездам или не звездам. И на основе классификации создавали алгоритм отбора.
Я уверен, что со временем  многие компании создадут свои подобные алгоритмы выявления звезд.
Обращайтесь, кстати, Прогноз успешности кандидатов на основе тестов
 Сверху алгоритм Python, снизу - R. Обратите внимание, что шкалы отбора выбраны программы выбраны одинаковые - Sp и Fx, граница Sp - 56, только Python больше или равно 56, а R больше 56, а граница Fx 50 и 44.
В R цифры следующее обозначает: если кандидат набирает менее 56 баллов по шкале Sp, то с вероятностью 90 % он не звезда, если он набирает более 56 баллов и менее 50 по шкале Fx, то с вероятностью 85 % он будет звездой.
В Python все похоже: сначала идет обозначение границы, потом критерий gini (это специфичный критерий, показывающий способность границы делить классы), samples - количество кандидатов в данной точке, value - количество звезд / не звезд в данной точке.
Т.е. если кандидат показывает больше 56 баллов по Sp и меньше или равно 44 по Fx, то вы с вероятностью 86 % звезда. Вероятность так считается: 18 / 21 = 85, 7 %


понедельник, 1 февраля 2016 г.

Нормы текучести IT специалистов

Ну а почему бы и нет.
Данный пост построен на основе двух моих исследований
Исследование времени поиска работы
Ключевые факторы удержания и текучести персонала
(примите участие в опросах - оба действующие)

Результаты

Всего в выборке 194 IT специалиста. Обращаю ваше внимание: среди этих 194 специалистов айтишники России, Украины, Беларуси, всех уровней позиций - от джуниора до первого уровня, всех отраслей. Поэтому я показываю среднюю температуру по больнице.
Чтобы сделать результаты более человечными, нужно сделать следующее:
  1. указать мне, какие срезы интересно посмотреть (по отраслям, по уровню позиции, по странам);
  2. пригласить знакомых айтишников принять участие в опросах (см. выше)
  3. а можно также указать те позиции, которые вам интересны: я имею ввиду, что не только нормы текучести IT спецов могут быть интересны
Ну и картинка
Нормы текучести IT специалистов
Как читать такой тип диаграммы - Анализ и визуализация дожития: чем HR похож на медиков.
  • По оси X - число месяцев стажа
  • По оси Y - вероятность, что работник доработает до этого момента стажа в компании.
Пунктирные линии - 95 % доверительный интервал

Данные

$quantile
      25             50                75
    11.2          30.0             55.2
$lower
      7.8            24               48
$upper
    16.4            38.7            79.4
Эти циферки обозначают следующее:
25, 50, 75 - это квартили, lower - нижний доверительный интервал, upper - верхний, а показатели - стаж в месяцах.
Если совсем просто, то средний IT спец в среднем дорабатывает до 30 месяцев, или точнее, средний "срок жизни" попадает в промежуток 24 и 38 месяцев.
Большой разброс? Ну я уже задолбался уговаривать участвовать в исследовании.
Или вот такой результат:
Быстрее всех бегут первогодки: 25 % новичков сбегают из компании;
Второгодки бегут меньше: примерно 20 %;
А вот на третий год бегут всего примерно 10 %
Если вам, все таки интересны результаты - напишите коммент, что вам это нужно, я буду продолжать.

Обращение

Коллеги, опрос проводится на некоммерческой основе, у меня нет спонсоров, я трачу много своего времени, поэтому, если Вы захотите выразить мне благодарность за интересные результаты, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 

или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!