Цитирую раздел книги R в действии. Анализ и визуализация данных на языке R. Этот текст на коротком примере показывает, что такое управление данными. Сам пример построен на данных, которые относятся непосредственно к HR
И тем, кто желает стать профессионалом в сфере анализа данных, рекомендую эту книгу
Итак,
Основы управления данными
Одна из задач, которую я решаю по долгу службы, – это как мужчины и женщины различаются по стилю руководства организациями.
Обычные вопросы могут быть следующими:
- различаются ли мужчины и женщины на руководящих должностях по степени лояльности к вышестоящему начальству?
- зависит ли это от страны, или выявленные гендерные (половые) различия носят универсальный характер?
Один из способов ответить на эти вопросы – взять начальников из разных стран и ранжировать подчиненных им менеджеров по степени лояльности, используя вопросы вроде этого:
этот менеджер спрашивает мое мнение перед принятием кадровых решений.
- абсолютно не согласен;
- не согласен;
- бывает по-разному;
- согласен;
- полностью согласен.
В результате можно получить данные вроде тех, что представлены в табл. 4.1. Каждая строка – это оценка, которую дал менеджеру его или ее начальник.
Здесь каждый менеджер оценен своим начальником по пяти параметрам (q1–q5), связанным с лояльностью к вышестоящим сотрудникам. Например, менеджер 1 – это 32-летний мужчина, работающий в США, который склонен подчиняться начальству, тогда как менеджер 5 – это женщина неизвестного возраста (99, вероятно, означает отсутствие информации), работающая в США и недостаточно лояльная к начальству. В таблице также указана дата проведения опроса.
Хотя набор данных может состоять из десятков переменных и тысяч наблюдений, мы оставили только десять столбцов и пять строк, чтобы упростить примеры. Кроме того, мы ограничили число вопросов, характеризующих лояльность менеджеров к начальству, пятью.
В реальном исследовании обычно используют 10–20 вопросов, чтобы получить более надежные и обоснованные результаты.
Для ответа на интересующие нас вопросы нужно сначала решить несколько проблем управления данными. Вот их неполный список:
- нужно объединить пять параметров оценки (от q1 до q5), чтобы для каждого менеджера получить единый усредненный показатель лояльности к начальству;
- при анкетировании респонденты часто пропускают вопросы. Например, начальник, который оценивал менеджера 4, не ответил на вопросы 4 и 5. Нам потребуется как-то справиться с неполными данными. Также нам нужно будет обозначить значения вроде 99 как отсутствующие;
- набор данных может содержать сотни переменных, но нас, возможно, заинтересуют только некоторые из них. Для упрощения ситуации у нас может появиться желание создать новый набор данных, состоящий только из этих переменных;
- предыдущие исследования показали, что отношение к начальству может меняться с возрастом. Чтобы проверить это, мы можем захотеть перекодировать значения возраста в возрастные группы (например, молодые, люди среднего возраста и старшего возраста);
- отношение к начальству может меняться со временем. Мы можем захотеть сосредоточиться на периоде последнего глобального финансового кризиса. Для этого можно ограничиться данными, собранными, скажем, с 1 января по 31 декабря 2009 года.
Примечание
Вот последний набор задач можно отнести к основам управления данными. В аналитике бОльшую часть времени приходится тратить на сбор и подготовку данных. И собственно сама подготовка данных есть уже работа над гипотезой. Желаю Вам удачи в вашей работе по управлению данными
Для тех, кого заинтересовало:
Комментариев нет:
Отправить комментарий