Share |

воскресенье, 9 октября 2016 г.

Как увидеть тысячи отзывов о компании на одной картинке

Я далеко не первая, кто пытается охватить море текстовой информации одним взглядом. Люди массово обрабатывают твиты, отзывы о товарах, фильмах, событиях. А почему бы это не использовать в работе? Мы все время пытаемся представить наши результаты в численном виде. Так проще обрабатывать данные, проще представлять их своему внутреннему «заказчику». В попытках повальной оцифровки данных мы практически всегда теряем часть информации. Ту часть, которую можно вытащить из текста.
Вот и я решила попробовать показать пример не совсем обычного использования обычного текста. У меня под рукой отзывы все с того же ресурса Банки.ру. Я отобрала только те из них, которые оставили уже бывшие работники банков. То есть больше всего эти отзывы похожи на exit-интервью. На этот раз я попробовала применить к отзывам тематическое моделирование, которое позволяет извлечь темы из текстов. При этом, если в тексте звучит сразу несколько тем, то все они будут «услышаны» и учтены, вес каждой темы будет играть роль при подведении итогов. Я разбила отзывы на 6 тем, «главные» слова, характеризующие каждую тему такие:
№темы
Главные слова темы
sbj0
премия получить увольнение трудовой последний заявление ответ причина отпуск данный уволить следующий договор кадр собственный
Sbj1
высокий уровень целое команда корпоративный отсутствие бизнес задача помнить направление предложение молодая кризис положительный часто
Sbj2
правление председатель рсхб представительство назначение судья власть кассовый болезнь изложить инкассация герман существование безопасник некомпетентность
Sbj3
клерк андеррайтер кредитный заявочный читатель сантиметр конвейер водитель выработка беседа андеррайтинг фабрика труженик насчёт событие
Sbj4
клиент неделя кредит сделать сидеть карта пройти приходить начальство причём взять выходной начаться пришлый город
Sbj5
работа большой руководство руководитель хотеть стать офис опыт хотя новый коллега отзыв общий отношение друг

У меня есть даты, когда были оставлены отзывы. Я вижу картинку следующим образом: тут я могу сразу смотреть и как меняется общее количество отзывов, и как они распределяются по темам. А заодно посмотреть какие слова часто встречаются и как они меняются со временем (на графике показаны слова, следующие за "главными" в теме, иначе я буду видеть только эти слова). А как бы вы использовали подобную информацию?

Если говорить о работе и продолжать тему exit-интервью, то в большинстве компаний увольняющийся сотрудник заполняет анкету, где ему на выбор предлагаются несколько готовых вариантов ответов. Все, что мы можем извлечь после обработки таких анкет, это общее количество ответов по каждому пункту. И определить наиболее часто встречающиеся. Если респондент отметил сразу несколько причин, то определить какая из них была весомее и насколько, уже не представляется возможным. Можем нарисовать такую картинку, какую выбрала я. Вы можете выбрать, например, гистограмму, или другой способ визуализации. Тут способ представления данных становится не принципиальным - чтобы мы не выбрали в этом случае, больше ценной информации у нас не появится.


Но если увольняющийся и анкету не заполняет, то все что мы можем, просто увидеть общее количество того, что мы пытаемся измерить и проанализировать. Какую еще информацию из этого можно извлечь?
Такой подход к извлечению и визуализации данных применим к любым текстам и всему, что их содержит - к exit-интервью, к самым разным опросам, к обработке обратной связи и т.д. и т.п. Как вы думаете, стоит ли собирать такую информацию и обрабатывать ее впоследствии?

2 комментария:

  1. может как нибудь связать с макро экономическими показателями?

    ОтветитьУдалить
  2. Например с уровнем безработицы? Посмотреть есть ли связь с тональностью отзывов (да и с их общим количеством) в зависимости от значений этого показателя? Какие темы становятся лидирующими?

    ОтветитьУдалить