Share |

понедельник, 22 января 2018 г.

Отличаем по функционалу HR и IT



Странное название поста для не профессионала. Это продолжение постов
  1. Сравнение психотипов HR, IT и продажников
  2. Какой функционал HR на самом деле бывает: кластерный анализ
  3. Какие психотипы есть в HR

В предыдущих постах я по разному обыгрываю кластерный анализ: пытаюсь сметчить кластеры, полученные на основе кластеризации функционала и тестов, и посмотреть, как кластеры бьются с позицией.
В этом посте я хочу решить стандартную задачу по машинному обучению: есть новости, которые размечены как определенные темы (спорт, политика и т.п..), задача специалиста по машинному обучению выделить кластеры / темы из текста так, чтобы потом по этим кластерам / темам новостное сообщение можно было отнести к своему разделу. 
Вопрос не такой простой: например, новость про допинг и не допуск россйсиких спортсменов к олимпиаде машина может в авной степени отнести к политике и спорту. 
В нашем случае задача может показаться проще: в нашем исследовании факторов текучести и эффективности персонала (исследование активно и ждет вашего участия) респонденты указывают сферу своей деятельности (HR, IT, продажи, маркетинг и т.п..) и пишут свой функционал словами.
Задача сводится к тому чтобы выделить в функционале кластеры, а потом сметчить полученные кластеры со сферой деятельности и посмотреть, насколько точно кластеры совпадают со сферой деятельности.
Заранее предупреждаю и обращаюсь к вам: я не копал глубоко, выдаю практически первое решение, потому сам завален работой и не имею особо времени копать, поэтому, если вы изъявите желание, я поделюсь датасетом и буду ждать вашего решения. 
Думаю, что основной ресурс зарыт в предобработке текста, начиная с простых вещей: кто то пишет ИТ, кто то IT.

Решение

Я взял только HR и IT спецов, количество такое:
HR - 1864
IT - 518 
В итоге выделил 20 кластеров. 
Отличаем по функционалу HR и IT
Здесь показаны описания кластеров и пространственное размещение кластеров относительно друг друга. Кластеры совсем рядом расположены, но IT кластеры (а к таким я отношу 2, 11, 13, 15) ближе друг другу. А 9-й кластер это IT рекрутер, поэтому он трется возле IT специалистов.

Что с точностью



кластер
HR %
IT %
HR
IT
0
организация работа компания корпоративный разработка
96.1
3.9
124
5
1
hr компания бизнес процесс проект
98.1
1.9
156
3
2
разработка система web внедрение java
29.7
70.3
41
97
3
рекрутмент адаптация оценка разработка поиск
50.0
50.0
86
86
4
компенсация льгота hr кадровый развитие
100
0.0
113
0
5
компания работа поиск сотрудник проведение
64.4
35.6
112
62
6
обучение развитие подбор оценка менеджер
97.4
2.6
150
4
7
адаптация подбор мотивация обучение поиск
100
0.0
108
0
8
подбор поиск работа массовый специалист
100
0.0
122
0
9
it проект специалист подбор hr
56.9
43.1
62
47
10
generalist hr компания сотрудник мотивация
100
0.0
62
0
11
developer java android разработчик web
5.1
94.9
4
74
12
рекрутинг адаптация кадровый делопроизводство hr
98.9
1.1
93
1
13
программист it системный отдел компания
3.3
96.7
2
59
14
оценка подбор обучение развитие адаптация
100
0.0
101
0
15
разработчик c с разработка внедрение
6.5
93.5
4
58
16
корпоративный организация культура подбор адаптация
99.2
0.8
127
1
17
отдел руководитель руководство работа подбор
86.0
14.0
104
17
18
кадровый делопроизводство подбор адаптация ведение
99.5
0.5
189
1
19
директор hr компания полный работа
97.2
2.8
104
3
1864
518
2382
1813
288
2101
0.97
0.56
0.88

  • В этой таблице обозначены кластеры, желтым я выделил те, что на мой взгляд относятся к IT спецам, остальные HR кластеры. 
  • Столбцы HR % и IT %, показывают распределение реальных HR и IT по кластеру, т.е. второй кластер "разработка система web внедрение java" состоит на 70 % из IT и на 30 % из HR. Видимо, это как раз IT рекрутеры.
  • Столбцы HR и IT показывают абсолютные значения попадания HR и IT  в кластеры. 

Ну и самое важное - точность попадания. Если принять мое деление на IT кластеры (желтые) и HR кластеры (остальные), то мы получаем такую картину:
По принадлежности к кластеру мы с 97 % точностью мы можем определить HR-а, и всего с 56 % процентной точностью можем угадать IT специалиста.
Сразу навскидку понял, как стоит усложнить задачу: я удалил в стоп слова выражение "управление персоналом", а надо еще удалить слова "hr" и "it", и попробовать сделать анализ так.
Коллеги, готовы взять данные и поиграться?) Прогноз можно улучшить, я уверен.



__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме




Комментариев нет:

Отправить комментарий

Популярные сообщения

п