Share |

воскресенье, 31 июля 2016 г.

Тематический анализ отзывов на Банки.ру. На что жалуются сотрудники

автор Люда Рогова

Этот пост посвящен анализу текста. Возможно, называть анализом мою попытку пока преждевременно, но начало положено. Тренируюсь я на отзывах кандидатов и работников банков - служебный рейтинг banki.ru.  Ранее Эдуард упоминал о такой возможности на примере анализа тональности отзывов о компании. Скажу сразу, мне эта тема очень интересна, так как я сама являюсь работником одного из банков, и отзывы о нем, да и о других банках, периодически читаю. Было интересно определить, что больше всего волнует людей,  какие темы наиболее часто звучат на указанном ресурсе.
Никогда ранее не приходилось обрабатывать текстовые данные, гораздо привычнее иметь дело с информацией, представленной в числовом виде. Но текст это тоже информация, и как показывает мой первый опыт, очень даже полезная и интересная.
Ради выгрузки и обработки отзывов, пригодных для дальнейшей работы, пришлось дополнительно познакомиться с несколькими библиотеками python, предназначенными  для этих целей (BeautifulSoup, nltk, pymorphy2). Уверенна, время потрачено не зря) На текущий момент у меня 4 610 отзывов о более чем 20-ти банков. Список банков в рейтинге больше почти в 10 раз, но я рассматривала только те банки, чьи работники оказались наиболее активными, и количество отзывов более 50.
Для кластеризации текстов по темам использовала KMeans. Попробовала разное количество кластеров, но оптимальное количество оказалось равным 5 - темы различимы, пересечение минимально при заданных условиях. Ниже попытка визуализации результата, там же список первых 10-ти наиболее важных ключевых слов, характеризующих каждый кластер:









По приведенным ключевым словам уже можно понять, какие темы затрагиваются в отзывах. Я же вижу полный список  слов, из которого понимаю что в кластере №0 речь идет о трудностях при увольнении, №1 содержит благодарности, в №2 истории приемов на работу (состоявшиеся и нет), кластер №3 о сложностях с руководством, выставленными планами, и последний №4 о вознаграждении. Я почему-то ожидала, что 4-й будет самый массовый, но данные говорят о популярности №1 и №3. Одинаково ли распределение для банков по отдельности? Может для одних более важна одна тема, для других иная? Как я написала ранее, я сама работник банка, и мне интересно не столько получить общую картинку, сколько сравнить своего текущего работодателя с другими.
Тут я это сравнение приводить не буду - окончательный результат я покажу в другом месте. Заодно, это будет хорошим примером использования текстовых данных в качестве нового источника полезной информации.
А здесь покажу несколько картинок по двум отдельным банкам. Названия их не указываю просто из вредности. Эта информация открытая, ее легко можно получить, перечитав несколько тысяч отзывов, имеющихся в свободном доступе.
Банк № 1

Банк № 2

Первые две картинки по сути об одном и том же - они позволяют получить некоторое представление о распределении отзывов по кластерам (темам). На мой взгляд первая интереснее, а вторая привычнее. Последняя картинка показывает как менялось количество отзывов по годам. Вариантов извлечения полезной информации масса, все ограничивается только полетом нашей фантазии и имеющимися на текущий момент знаниями.

Комментариев нет:

Отправить комментарий