Share |

вторник, 15 ноября 2016 г.

Excel нам в помощь


Можно ли использовать excel для решения аналитических задач? Конечно можно. Естественно excel не обладает мощью R или python, но многие задачи там тоже решаются. Что-то даже легче. В группе на FB совсем немногочисленная часть участников работает преимущественно в R или python, а остальные как-то не особенно проявляют активность. Если вопрос только в отсутствии знаний языков программирования, то почему бы не использовать excel? Он есть у всех) Я сейчас попробовала вернуться к нему и решить какую-нибудь задачу, не прибегая к python.
Эдуард в который раз предоставил нам данные своего опроса - строй гипотезы и проверяй, что в голову придет. В опросе есть такой пункт "Проходили (проходите) ли Вы за время работы в компании обучение самостоятельно (не за счет компании, а свой или бесплатно)". Вот мне интересно, а что влияет на решение поучиться не за счет компании?

В excel реализовано много инструментов для проверки гипотез. Самое первое и самое простое, что приходит на ум - использовать Хи2 в этих целях.
В качестве переменных для анализа я выбрала:
- пол
- возраст
- семейное положение
- наличие детей
- образование
- знание иностранного языка
- жилищные условия
- наличие кредитов
Я не стала рассматривать остальные переменные, которые уже больше относятся к характеристикам компании и/или рабочей обстановки. Excel все-таки, да и меня пока больше сам человек интересует, он же принимает решение о самостоятельном обучении.
В результате - женщины учатся охотнее мужчин, p-value 1.12Е-5.


Есть отличие и по уровню иностранного языка,  p-value 0.0014

Остальные факторы никак не связаны с желанием учиться в свое свободное время и тем более за свой счет.

Следующий вопрос, который возникает - а влияет ли самостоятельное обучение на оплату труда? Стоят ли того затрачиваемые усилия? Так выглядит ЗП на момент увольнения или прохождения опроса:


Уже невооруженным взглядом видно, что различий практически нет... Правильно конечно формально убедится в отсутствии различий в ЗП, но я не стала этого делать, глядя на такую картинку.

Ну и напоследок я решила совсем убиться и попробовать сделать что-то, хоть немного напоминающее кластеризацию. Только в excel. Ну в общем это тоже можно реализовать, но ценой героических усилий). Количество кластеров я взяла равное 8. Определение количества кластеров и в питоне не совсем простая задача, поэтому я особенно не переживаю. Вот как проверить качество кластеризации в excel я точно не знаю. Можно конечно на VBA код написать, но не думаю, что это сейчас имеет смысл. Остается только один способ убедиться, что кластеры получились более или менее адекватными - визуализировать результат. Как? У меня 8 независимых переменных, в двухмерное или трехмерное пространство их не засунешь. Есть очень хороший способ - параллельные координаты. В параллельных координатах переменные кодируются по горизонтали, вертикальная линия определяет значение переменной. Что у меня получилось на графике ниже:


Не идеал, но все-таки тоже ничего.Все ряды на графике в excel не нарисуешь (1 ряд - один участник опроса, а их более 2 000). Есть как технические ограничения (не более 255 рядов на один график), так человеческие ограничения (форматировать ряд придется чуть ли не вручную). Я случайно выбрала порядка 70-ти участников из 4-х самых крупных кластеров, на большее меня не хватило...
Вывод - можно спокойно решать аналитические задачи в excel, особенно если  использовать надстройку "Анализ данных", доступную всем. Возможно визуализация подкачает, но в анализе данных это не имеет критического значения, главное правильные расчеты и верные выводы (последнее реализуется исключительно в голове).

Комментариев нет:

Отправить комментарий