Странное название поста для не профессионала. Это продолжение постов
Ну и самое важное - точность попадания. Если принять мое деление на IT кластеры (желтые) и HR кластеры (остальные), то мы получаем такую картину:
По принадлежности к кластеру мы с 97 % точностью мы можем определить HR-а, и всего с 56 % процентной точностью можем угадать IT специалиста.
Сразу навскидку понял, как стоит усложнить задачу: я удалил в стоп слова выражение "управление персоналом", а надо еще удалить слова "hr" и "it", и попробовать сделать анализ так.
Коллеги, готовы взять данные и поиграться?) Прогноз можно улучшить, я уверен.
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме
- Сравнение психотипов HR, IT и продажников
- Какой функционал HR на самом деле бывает: кластерный анализ
- Какие психотипы есть в HR
В предыдущих постах я по разному обыгрываю кластерный анализ: пытаюсь сметчить кластеры, полученные на основе кластеризации функционала и тестов, и посмотреть, как кластеры бьются с позицией.
В этом посте я хочу решить стандартную задачу по машинному обучению: есть новости, которые размечены как определенные темы (спорт, политика и т.п..), задача специалиста по машинному обучению выделить кластеры / темы из текста так, чтобы потом по этим кластерам / темам новостное сообщение можно было отнести к своему разделу.
Вопрос не такой простой: например, новость про допинг и не допуск россйсиких спортсменов к олимпиаде машина может в авной степени отнести к политике и спорту.
В нашем случае задача может показаться проще: в нашем исследовании факторов текучести и эффективности персонала (исследование активно и ждет вашего участия) респонденты указывают сферу своей деятельности (HR, IT, продажи, маркетинг и т.п..) и пишут свой функционал словами.
Задача сводится к тому чтобы выделить в функционале кластеры, а потом сметчить полученные кластеры со сферой деятельности и посмотреть, насколько точно кластеры совпадают со сферой деятельности.
Заранее предупреждаю и обращаюсь к вам: я не копал глубоко, выдаю практически первое решение, потому сам завален работой и не имею особо времени копать, поэтому, если вы изъявите желание, я поделюсь датасетом и буду ждать вашего решения.
Думаю, что основной ресурс зарыт в предобработке текста, начиная с простых вещей: кто то пишет ИТ, кто то IT.
Решение
Я взял только HR и IT спецов, количество такое:
HR - 1864
IT - 518
В итоге выделил 20 кластеров.
Здесь показаны описания кластеров и пространственное размещение кластеров относительно друг друга. Кластеры совсем рядом расположены, но IT кластеры (а к таким я отношу 2, 11, 13, 15) ближе друг другу. А 9-й кластер это IT рекрутер, поэтому он трется возле IT специалистов.
Что с точностью
кластер
|
HR %
|
IT %
|
HR
|
IT
|
||
0
|
организация работа компания
корпоративный разработка
|
96.1
|
3.9
|
124
|
5
|
|
1
|
hr компания бизнес процесс проект
|
98.1
|
1.9
|
156
|
3
|
|
2
|
разработка система web внедрение java
|
29.7
|
70.3
|
41
|
97
|
|
3
|
рекрутмент адаптация оценка разработка
поиск
|
50.0
|
50.0
|
86
|
86
|
|
4
|
компенсация льгота hr кадровый развитие
|
100
|
0.0
|
113
|
0
|
|
5
|
компания работа поиск сотрудник
проведение
|
64.4
|
35.6
|
112
|
62
|
|
6
|
обучение развитие подбор оценка менеджер
|
97.4
|
2.6
|
150
|
4
|
|
7
|
адаптация подбор мотивация обучение
поиск
|
100
|
0.0
|
108
|
0
|
|
8
|
подбор поиск работа массовый специалист
|
100
|
0.0
|
122
|
0
|
|
9
|
it проект специалист подбор hr
|
56.9
|
43.1
|
62
|
47
|
|
10
|
generalist hr компания сотрудник
мотивация
|
100
|
0.0
|
62
|
0
|
|
11
|
developer java
android разработчик web
|
5.1
|
94.9
|
4
|
74
|
|
12
|
рекрутинг адаптация кадровый
делопроизводство hr
|
98.9
|
1.1
|
93
|
1
|
|
13
|
программист it системный отдел компания
|
3.3
|
96.7
|
2
|
59
|
|
14
|
оценка подбор обучение развитие
адаптация
|
100
|
0.0
|
101
|
0
|
|
15
|
разработчик c с разработка внедрение
|
6.5
|
93.5
|
4
|
58
|
|
16
|
корпоративный организация культура
подбор адаптация
|
99.2
|
0.8
|
127
|
1
|
|
17
|
отдел руководитель руководство работа
подбор
|
86.0
|
14.0
|
104
|
17
|
|
18
|
кадровый делопроизводство подбор
адаптация ведение
|
99.5
|
0.5
|
189
|
1
|
|
19
|
директор hr компания полный работа
|
97.2
|
2.8
|
104
|
3
|
|
1864
|
518
|
2382
|
||||
1813
|
288
|
2101
|
||||
0.97
|
0.56
|
0.88
|
- В этой таблице обозначены кластеры, желтым я выделил те, что на мой взгляд относятся к IT спецам, остальные HR кластеры.
- Столбцы HR % и IT %, показывают распределение реальных HR и IT по кластеру, т.е. второй кластер "разработка система web внедрение java" состоит на 70 % из IT и на 30 % из HR. Видимо, это как раз IT рекрутеры.
- Столбцы HR и IT показывают абсолютные значения попадания HR и IT в кластеры.
Ну и самое важное - точность попадания. Если принять мое деление на IT кластеры (желтые) и HR кластеры (остальные), то мы получаем такую картину:
По принадлежности к кластеру мы с 97 % точностью мы можем определить HR-а, и всего с 56 % процентной точностью можем угадать IT специалиста.
Сразу навскидку понял, как стоит усложнить задачу: я удалил в стоп слова выражение "управление персоналом", а надо еще удалить слова "hr" и "it", и попробовать сделать анализ так.
Коллеги, готовы взять данные и поиграться?) Прогноз можно улучшить, я уверен.
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме
Комментариев нет:
Отправить комментарий