Share |

вторник, 9 мая 2017 г.

Тематическое моделирование в корпоративных опросах

В последнее время много раз поднимался вопрос о преимуществах открытых вопросов над закрытыми. Все больше наших компаний включают открытые вопросы в свои корпоративные исследования. Современные инструменты позволяют обработать результаты открытых вопросов практически так же быстро, как и закрытых. Только результат на выходе получается принципиально более качественным. Конечно, если вы владеете такими техниками. И там, где работа над закрытыми вопросами заканчивается, работа над открытыми только начинается.
Пока что самый распространенный способ узнать о чем говорят/пишут люди, использовать тематическое моделирование. Когда у вас много текстов на разные тематики, результат практически всегда отличный - темы легко интерпретируются, не вызывают недоумения со стороны "заказчика" исследования. В своей небольшой пока практике успела столкнуться с тем, что при обработке ответов на вопросы в корпоративных исследованиях все не так просто. Не всегда легко понять какие темы прозвучали, так как они часто пересекаются, топ-слова дублируются. Приходилось делать много итераций для получения оптимального результата. Готовых инструментов, хотя бы частично автоматизирующих процесс, не так много, а мне захотелось сделать его быстрым, и не столь утомительным для себя.
Лучшую модель выбирают исходя из значения выбранной метрики качества. Существует много метрик, позволяющих оценить качество построенных моделей для тематического моделирования. Но самой лучшей остается оценка результата экспертами, то есть людьми - смогут ли они по топ-словам понять, о какой теме/проблеме идет речь. Замечательно, но в процессе выбора модели слегка утомительно. Из автоматических метрик больше всего согласуется с оценками экспертов когерентность. Вот ее я и взяла для своих целей. Я прописала код, который перебирает количество тем и варианты "обрезки" словаря и на выходе выдает мне модели с лучшими характеристиками. И вот из них я выбираю финальный вариант. Скорость обработки повысилась в десятки раз, надеюсь что качество тоже).
У меня есть результаты нескольких опросов. На них я и опробовала свой код. Ниже результат по первому из них, в котором спрашивали как повысить отклики на внутренние вакансии. Слева облако слов, составленное из всех ответов респондентов. Справа результат работы кода - темы, топ-слова. Размер прямоугольников характеризует вес темы в полученных ответах - чем больше площадь прямоугольника тем более значима тема. Не пытайтесь один в один сопоставить общую частоту слов во всех ответах (слева) с полученными темами (справа). Если сам вопрос предполагает в своем ответе использование какого-то слова, его частота будет большой, но об отдельной теме говорить в этом случае нельзя.
А вот еще один пример из другой компании, на вопрос "что бы вы хотели изменить в компании":

Зачем мне это было надо?  Реально я тратила много времени на выбор лучшего варианта, а теперь это время освободилось для дальнейшего анализа. Ведь интересно не просто вытащить темы, но и посмотреть, например, на их взаимосвязь с другими факторами. И как я уже написала - там, где работа в классическом опросе заканчивается, работа над открытыми вопросами только начинается) 

Комментариев нет:

Отправить комментарий