Share |

понедельник, 4 ноября 2013 г.

Основы управления данными

Цитирую раздел книги R в действии. Анализ и визуализация данных на языке R. Этот текст на коротком примере показывает, что такое управление данными. Сам пример построен на данных, которые относятся непосредственно к HR
И тем, кто желает стать профессионалом в сфере анализа данных, рекомендую эту книгу
Итак, 

Основы управления данными

Одна из задач, которую я решаю по долгу службы, – это как мужчины и женщины различаются по стилю руководства организациями.
Обычные вопросы могут быть следующими:
  • различаются ли мужчины и женщины на руководящих должностях по степени лояльности к вышестоящему начальству?
  • зависит ли это от страны, или выявленные гендерные (половые) различия носят универсальный характер?
Один из способов ответить на эти вопросы – взять начальников из разных стран и ранжировать подчиненных им менеджеров по степени лояльности, используя вопросы вроде этого:
этот менеджер спрашивает мое мнение перед принятием кадровых решений.
  1. абсолютно не согласен;
  2. не согласен;
  3. бывает по-разному;
  4. согласен;
  5. полностью согласен.
В результате можно получить данные вроде тех, что представлены в табл. 4.1. Каждая строка – это оценка, которую дал менеджеру его или ее начальник.

Таблица 4.1. Гендерные различия в стиле руководства

Основы управления данными

Здесь каждый менеджер оценен своим начальником по пяти параметрам (q1–q5), связанным с лояльностью к вышестоящим сотрудникам. Например, менеджер 1 – это 32-летний мужчина, работающий в США, который склонен подчиняться начальству, тогда как менеджер 5 – это женщина неизвестного возраста (99, вероятно, означает отсутствие информации), работающая в США и недостаточно лояльная к начальству. В таблице также указана дата проведения опроса.
Хотя набор данных может состоять из десятков переменных и тысяч наблюдений, мы оставили только десять столбцов и пять строк, чтобы упростить примеры. Кроме того, мы ограничили число вопросов, характеризующих лояльность менеджеров к начальству, пятью.
В реальном исследовании обычно используют 10–20 вопросов, чтобы получить более надежные и обоснованные результаты. 
Для ответа на интересующие нас вопросы нужно сначала решить несколько проблем управления данными. Вот их неполный список:
  • нужно объединить пять параметров оценки (от q1 до q5), чтобы для каждого менеджера получить единый усредненный показатель лояльности к начальству;
  • при анкетировании респонденты часто пропускают вопросы. Например, начальник, который оценивал менеджера 4, не ответил на вопросы 4 и 5. Нам потребуется как-то справиться с неполными данными. Также нам нужно будет обозначить значения вроде 99 как отсутствующие;
  • набор данных может содержать сотни переменных, но нас, возможно, заинтересуют только некоторые из них. Для упрощения ситуации у нас может появиться желание создать новый набор данных, состоящий только из этих переменных;
  • предыдущие исследования показали, что отношение к начальству может меняться с возрастом. Чтобы проверить это, мы можем захотеть перекодировать значения возраста в возрастные группы (например, молодые, люди среднего возраста и старшего возраста);
  • отношение к начальству может меняться со временем. Мы можем захотеть сосредоточиться на периоде последнего глобального финансового кризиса. Для этого можно ограничиться данными, собранными, скажем, с 1 января по 31 декабря 2009 года.

Примечание

Вот последний набор задач можно отнести к основам управления данными. В аналитике бОльшую часть времени приходится тратить на сбор и подготовку данных. И собственно сама подготовка данных есть уже работа над гипотезой. Желаю Вам удачи в вашей работе по управлению данными
Для тех, кого заинтересовало:
Сама программа R бесплатная и доступна для скачивания на сайте R
Книгу можно купить на OZON
и в Labirint

Комментариев нет:

Отправить комментарий

рек