Перевод статьи Why Should Analytically-Minded HR Professionals Learn to Use R (And Forget About Excel)? нашего проекта переводы статей по hr-аналитике на английском.
Перевод выполнила Юлия Мануева . Ссылка на профиль в фейсбук. Работает в обучении в т.ч. в онлайн. Производство, металлургия. Сейчас в декрете. И это первый перевод Юлии в нашем блоге
Тема R на самом деле перезрела в HR и вангую, что в следующем году мы увидим войну за рынок обучения HR языку R (у меня есть семинар "HR-Аналитика в R" для продвинутых пользователей R и я он-лайн курс "Введение в R для HR" для тех, кто только начинает изучение R).
Я проводил недавно опрос Должен ли R стать языком HR? - результаты пока не обнадеживают:) Особенно с учетом того, что опрос проводился в телеграм канале HR-аналитики.
Для HR профессионалов смешение науки о данных и практики HR относительно недавнее явление.
Это сложная взаимосвязь, т.к. HR профессионалы не обязательно специалисты по обработке и анализу данных и наоборот. Тем не менее принимать решения в области HR, основанные на данных, точно имеет смысл для бизнеса, который хочет строиться на реальных данных и информации. Таким образом бизнес, в котором повышается зависимость от HR отдела, будет в состоянии отображать реальную ситуацию и давать рекомендации, основанные на данных, которые он собрали.
Чтобы заниматься HR аналитикой, необходимо выбрать правильный инструмент для работы. Вам необходимо собирать данные, интерпретировать их и давать рекомендации, основанные на ваших выводах. Для этих целей многие HR профессионалы используют Excel. В нем можно использовать формулы и различные аналитические возможности для обработки данных.
Однако Excel имеет ограничения, что становится особенно очевидным, если вы имеете дело с большим количеством данных. R предлагает больше возможностей для HR профессионалов, которые мы изложим здесь.
Вот несколько причин, которые стоит рассмотреть, изучая R:
HR данные постоянно пополняются, поэтому довольно много примеров, когда вам может не хватить листа в Excel. Помимо этого, столбцы самопроизвольно ограничивают количество наборов данных, которые вы можете вводить как целое число
R дает вам гибкую возможность для того, чтобы провести все виды анализа, если у вас есть достаточно данных в распоряжении. Для HR профессионалов это значит, что R даёт вам больше вариантов для просмотра и работы с данными.
Другими словами, когда вы используете максимум пространства, доступного вам в Excel, цена, которую вы платите, это очень медленная обработка данных. Нередко программе требуется 15 минут и больше, чтобы открыть файл с 100000 строк на листе. Тогда как R запустится менее, чем за 30 секунд, чтобы работать с 1 миллионом “строк”. И даже для большего объема данных Вы не потеряете в скорости - R справится с действительно большими наборами данных и будет продолжать работать продуктивно.
В R же данные загружаются автоматически при помощи одной строки кода. Да, вам потребуется потратить время, чтобы изучить код, но освоив его, впоследствии получить данные будет гораздо быстрее.
Когда вы загрузили данные, R несравнимо лучше Excel в автоматизации и расчетах. Если вы хотите погрузиться в детали, R может справиться с различными видами анализа и даже обнаружить тренды, о которых вы не подозревали. Он поможет вам очистить и организовать данные, даже установить статистическую целесообразность (statistical viability). И как дополнительный бонус он может прочитать любой тип данных.
Excel хорош, если вы работаете с небольшим объемом данных - легко выделять, щелкать по цифрам и создавать сводные таблицы. Но когда задачи усложняются, Excel терпит крах (и конечно никто не в восторге от Excel, когда он рушится под весом большого количества данных).
Однако один раз изучив некоторые базовые понятия R, вы обнаружите, что почти все, что вы делали в Excel, может быть выполнено гораздо быстрее в R. Это связано с тем, что исходный код в R воспроизводимый. Исходный код в R может повторяться с разными наборами данных такими способами, которыми исходный код в Excel и VBA не может быть использован. Все это делает R более простым в использовании по сравнению с VBA в долгосрочной перспективе и стоит того, чтобы потратить время на обучение.
С другой стороны R - это программа с открытым источником, и у нее огромное сообщество. Это привело к тому, что появилось несколько сложных библиотек для статистического анализа, которые покрывают практически все потребности в анализе, о которых вы можете только подумать. R продвигает это, делая библиотеки общедоступными, давая доступ к новым функциям, которые могут быть применимы к вашим данным.
Вы можете возразить, что у Excel есть VBA, позволяющий совершать большинство действий, которые можно сделать в R, но различие в том, насколько затратны по времени будут одни и те же действия. R позволяет копировать и вставлять код для легкого воспроизведения, в то время как в VBA вы каждый раз будете выполнять долгие настройки.
С библиотекой ggplot2 в R вы легко можете создавать любой вид графиков, который вам необходим, и адаптировать любую его часть. Например R позволяет создавать матрицы диаграмм рассеивания (scatterplot matrix), график интегральной функции распределения (CDF plots ) и другие более сложные способы визуализации данных. Если вы хотите выделить ваши данные например в публикуемом отчете, R дает вам возможность создавать более впечатляющие представления.
Если вы открываете сложный файл в Excel, то не так-то просто понять, что происходит в файле, и каким задумывался процесс работы данного файла. В добавок ко всему значения в Excel файле могут быть изменены без каких-либо записей об истории изменений.
Книги Excel также могут содержать скрытые макросы и формулы. Человек, который создал файл, вероятно знал, что стоит за этим, но сложными книгами непросто поделиться с другими пользователями, а также нелегко их толковать.
R дает вам возможность добавлять все виды функционала, в то время как в Excel вам придется ждать обновлений, если данная функция еще не доступна. В добавок ко всему R поддерживается большим количеством платформ, чем Excel, поэтому у него более универсальное применение.
Конечно вы можете продолжать использовать Excel для несложных вычислений, но я обнаружил такую особенность: если вы однажды попробовали работать с R, вы вряд ли вернетесь назад. Большое сообщество R предлагает постоянные улучшения, подходящие для HR профессионалов. Есть даже программы, создающие возможность машинного обучения.
Ожидания, что HR будет представлять более взвешенную и точную информацию для принятия решений, растут. R дает вам возможность погрузиться глубже в данные.
__________________________________________________________
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте
Перевод выполнила Юлия Мануева . Ссылка на профиль в фейсбук. Работает в обучении в т.ч. в онлайн. Производство, металлургия. Сейчас в декрете. И это первый перевод Юлии в нашем блоге
Тема R на самом деле перезрела в HR и вангую, что в следующем году мы увидим войну за рынок обучения HR языку R (у меня есть семинар "HR-Аналитика в R" для продвинутых пользователей R и я он-лайн курс "Введение в R для HR" для тех, кто только начинает изучение R).
Я проводил недавно опрос Должен ли R стать языком HR? - результаты пока не обнадеживают:) Особенно с учетом того, что опрос проводился в телеграм канале HR-аналитики.
Итак,
Почему HR профессионалам, работающим с аналитикой, стоит изучать язык R и забыть об Excel.
Для HR профессионалов смешение науки о данных и практики HR относительно недавнее явление.
Это сложная взаимосвязь, т.к. HR профессионалы не обязательно специалисты по обработке и анализу данных и наоборот. Тем не менее принимать решения в области HR, основанные на данных, точно имеет смысл для бизнеса, который хочет строиться на реальных данных и информации. Таким образом бизнес, в котором повышается зависимость от HR отдела, будет в состоянии отображать реальную ситуацию и давать рекомендации, основанные на данных, которые он собрали.
Чтобы заниматься HR аналитикой, необходимо выбрать правильный инструмент для работы. Вам необходимо собирать данные, интерпретировать их и давать рекомендации, основанные на ваших выводах. Для этих целей многие HR профессионалы используют Excel. В нем можно использовать формулы и различные аналитические возможности для обработки данных.
Однако Excel имеет ограничения, что становится особенно очевидным, если вы имеете дело с большим количеством данных. R предлагает больше возможностей для HR профессионалов, которые мы изложим здесь.
Зачем использовать R вместо Excel?
По моему личному опыту R позволяет мне “играть с данными” такими способами, которых нет в Excel. И да, это персональное предпочтение. Однако быстрый обзор блогов других аналитиков данных показывает, что R - это самый частый выбор в большинстве случаев. (Да, вы можете рассмотреть такие программы, как Python или SQL, но R зачастую побеждает из-за простоты).Вот несколько причин, которые стоит рассмотреть, изучая R:
R справляется с очень большими объемами данных.
Excel имеет ограничение по количеству строк и столбцов, которые доступны на каждой странице. Если вы их израсходовали, вы или начинаете работать на новой странице или создаете новый файл.HR данные постоянно пополняются, поэтому довольно много примеров, когда вам может не хватить листа в Excel. Помимо этого, столбцы самопроизвольно ограничивают количество наборов данных, которые вы можете вводить как целое число
R дает вам гибкую возможность для того, чтобы провести все виды анализа, если у вас есть достаточно данных в распоряжении. Для HR профессионалов это значит, что R даёт вам больше вариантов для просмотра и работы с данными.
Другими словами, когда вы используете максимум пространства, доступного вам в Excel, цена, которую вы платите, это очень медленная обработка данных. Нередко программе требуется 15 минут и больше, чтобы открыть файл с 100000 строк на листе. Тогда как R запустится менее, чем за 30 секунд, чтобы работать с 1 миллионом “строк”. И даже для большего объема данных Вы не потеряете в скорости - R справится с действительно большими наборами данных и будет продолжать работать продуктивно.
У R лучше возможность для обработки данных
Начнем с вопроса: откуда к вам поступают данные? Вы наверняка берете данные из нескольких источников, и вам необходимо как-то собрать их вместе. В Excel вы можете потратить большое количество времени только на загрузку и импорт данных.В R же данные загружаются автоматически при помощи одной строки кода. Да, вам потребуется потратить время, чтобы изучить код, но освоив его, впоследствии получить данные будет гораздо быстрее.
Когда вы загрузили данные, R несравнимо лучше Excel в автоматизации и расчетах. Если вы хотите погрузиться в детали, R может справиться с различными видами анализа и даже обнаружить тренды, о которых вы не подозревали. Он поможет вам очистить и организовать данные, даже установить статистическую целесообразность (statistical viability). И как дополнительный бонус он может прочитать любой тип данных.
Excel хорош, если вы работаете с небольшим объемом данных - легко выделять, щелкать по цифрам и создавать сводные таблицы. Но когда задачи усложняются, Excel терпит крах (и конечно никто не в восторге от Excel, когда он рушится под весом большого количества данных).
Время строить
Одно из сомнений, которое HR профессионалы испытывают относительно R, это необходимость обучиться коду, чтобы управлять им. Это отдельный новый язык, и некоторым людям он определенно покажется более сложным, чем другие.Однако один раз изучив некоторые базовые понятия R, вы обнаружите, что почти все, что вы делали в Excel, может быть выполнено гораздо быстрее в R. Это связано с тем, что исходный код в R воспроизводимый. Исходный код в R может повторяться с разными наборами данных такими способами, которыми исходный код в Excel и VBA не может быть использован. Все это делает R более простым в использовании по сравнению с VBA в долгосрочной перспективе и стоит того, чтобы потратить время на обучение.
R позволяет проводить любой тип статистического анализа
Если взглянуть на возможности Excel по анализу данных, я бы оценил их как “от базовых до средних”. Запуск сторонних макросов в Excel не прижился в основном из-за соображений безопасности.С другой стороны R - это программа с открытым источником, и у нее огромное сообщество. Это привело к тому, что появилось несколько сложных библиотек для статистического анализа, которые покрывают практически все потребности в анализе, о которых вы можете только подумать. R продвигает это, делая библиотеки общедоступными, давая доступ к новым функциям, которые могут быть применимы к вашим данным.
Вы можете возразить, что у Excel есть VBA, позволяющий совершать большинство действий, которые можно сделать в R, но различие в том, насколько затратны по времени будут одни и те же действия. R позволяет копировать и вставлять код для легкого воспроизведения, в то время как в VBA вы каждый раз будете выполнять долгие настройки.
В R лучшие средства визуализации
Графические возможности R далеко впереди Excel. Excel отлично подходит для простых диаграмм, которые вы возможно захотите быстро накидать для презентации. R дает вам возможность для гораздо более сложной визуализации.С библиотекой ggplot2 в R вы легко можете создавать любой вид графиков, который вам необходим, и адаптировать любую его часть. Например R позволяет создавать матрицы диаграмм рассеивания (scatterplot matrix), график интегральной функции распределения (CDF plots ) и другие более сложные способы визуализации данных. Если вы хотите выделить ваши данные например в публикуемом отчете, R дает вам возможность создавать более впечатляющие представления.
R более прозрачный
Есть много функциональных особенностей, которые, по моему мнению, делают R лучшим выбором, но возможно одна из наиболее значительных - это его прозрачность. Все, что вы делаете в процессе анализа, от удаления строк до того, как вы интерпретируете результаты, содержится в коде. Код представляется полинейно, позволяет добавлять комментарии, тем самым делая код простым для понимания. Такое линейное представление также позволяет быстро и легко считывать информацию - код читается и толкуется также, как в любой другой программе.Если вы открываете сложный файл в Excel, то не так-то просто понять, что происходит в файле, и каким задумывался процесс работы данного файла. В добавок ко всему значения в Excel файле могут быть изменены без каких-либо записей об истории изменений.
Книги Excel также могут содержать скрытые макросы и формулы. Человек, который создал файл, вероятно знал, что стоит за этим, но сложными книгами непросто поделиться с другими пользователями, а также нелегко их толковать.
R - это бесплатно
Ну кто не любит бесплатное? Хотя офисные приложения от Microsoft, в которые входит Excel, не очень дорогие, они менее гибкие, чем R, который возможно загрузить бесплатно.R дает вам возможность добавлять все виды функционала, в то время как в Excel вам придется ждать обновлений, если данная функция еще не доступна. В добавок ко всему R поддерживается большим количеством платформ, чем Excel, поэтому у него более универсальное применение.
Финальные мысли
HR профессионалы, если вы до сих пор используете Excel для анализа и работы с большим объемом данных, есть лучший способ. R дает вам доступ к лучшим возможностям и более простому управлению большими объемами данных.Конечно вы можете продолжать использовать Excel для несложных вычислений, но я обнаружил такую особенность: если вы однажды попробовали работать с R, вы вряд ли вернетесь назад. Большое сообщество R предлагает постоянные улучшения, подходящие для HR профессионалов. Есть даже программы, создающие возможность машинного обучения.
Ожидания, что HR будет представлять более взвешенную и точную информацию для принятия решений, растут. R дает вам возможность погрузиться глубже в данные.
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте