Share |

четверг, 13 июля 2017 г.

9 терминов HR аналитики, которые необходимо знать, часть 2

Перевод статьи 9 (HR) Analytics terms you should know PART 2. Первая часть статьи прям взорвала наш блог по числу просмотров, см. 9 терминов HR аналитики, которые необходимо знать. Перевод выполнен в рамках проекта переводы статей по hr-аналитике на английском студентом Высшей Школы Экономики Кривощековым Владиславом.

9 терминов HR аналитики, которые необходимо знать, часть 2

Знаете ли вы все термины, которые использует ваш data scientist? Многим людям было интересно узнать о технических терминах, связанных с статистикой и машинным обучением в части 1. Что означают такие слова как многомерный анализ, случайный лес и ускорение алгоритмов? В этом посте мы расскажем и покажем вам все об этом!

1. Многомерный анализ

Многомерный анализ является противоположностью одномерного анализа. Одномерный анализ имеет только так называемую Y-переменную. Переменная Y также известна как зависимая или конечная переменная. Например, когда вы хотите предсказать, как возраст и уровень участия влияют на рейтинг эффективности, существует только одна зависимая переменная. Однако, когда вы хотите предсказать чей-то рейтинг эффективности и оплату, есть две зависимые переменные, поэтому применяется многомерный анализ.
9 терминов HR аналитики, которые необходимо знать

2. Зависимые vs. независимые переменные

Когда вы хотите предсказать, как взаимодействие приводит к эффективности, вы ожидаете, что эффективность труда зависит от уровня участия кого-то. Следовательно, взаимодействие является независимой переменной, а эффективность - зависимой переменной. Вы ожидаете, что зависимая переменная будет зависеть от оценок независимой переменной, так что когда вы будете манипулировать независимой переменной (увеличение / уменьшение взаимодействия), вы также ожидаете изменения зависимой переменной (увеличение / уменьшение эффективности).

3. Бустинг (Boosting)

Когда вы создаете алгоритм, вы хотите, чтобы он был максимально прогностическим и точным. Boosting - это интерактивный статистический метод, который создает множество дополнительных наборов данных. Для каждого из этих наборов данных создается модель. Эти наборы данных создаются преднамеренно (т. е. неслучайно). Это означает, что масса ошибочных точек данных увеличивается, и поэтому следующий алгоритм будет лучше соответствовать этим ошибкам. Этот процесс повторяется много раз. Вместе эти модели определяют наиболее вероятный результат. Они принимают это решение на основе взвешенного «голосования», в котором более точные модели обладают большей мощностью «голосования», чем менее точные модели.
Boosting - это комбинация нескольких алгоритмов и часто упоминается как мета-алгоритм. Самый известный повышающий классификатор - AdaBoost (который используется в этом блоге Линдоном). Результаты этих моделей сложны, и поэтому их трудно анализировать, однако мета-алгоритм имеет очень высокую эффективность.

4. Бэггинг (Bagging)

Bagging - еще один мета-алгоритм и означает агрегацию Bootstrap. Bagging – это метод, при котором несколько тренировочных наборов независимо отбираются на основе исходного набора данных. Множество моделей строятся и увеличивают размер этих дополнительных наборов данных - так же, как и с boosting. В конечном итоге предсказание проводится невзвешенным большинством «голосов» различных моделей.
Bagging помогает уменьшить эффект отклонений в алгоритме и, следовательно, дисперсию алгоритма. Этот метод в основном используется для алгоритмов дерева решений, поскольку outlier может создать совершенно другое дерево решений. Поэтому воздействие намного больше, чем у других алгоритмов.

5. C4.5

C4.5 - алгоритм дерева решений. C4.5 - хорошо известный и очень точный алгоритм интеллектуального анализа данных. С каждой новой ветвью C4.5 использует критерии усиления информации по сравнению с коэффициентом усиления по умолчанию для каждого атрибута, а затем выбирает лучший атрибут для разделения своей ветви.
Дерево ниже показывает две переменные погоды и то, как они влияют на вероятность того, что ваш сосед будет играть в гольф в случайный день (результат «да» и «нет»). Это показывает, что C4.5 дает результаты, которые очень легко понять и визуализировать. Дерево показывает, что, когда прогноз погоды солнечный, ваш сосед гораздо чаще играет в гольф по сравнению с дождливым прогнозом. Для солнечного прогноза модель предсказывает вероятность того, что ваш сосед будет играть в гольф пять из шести раз (примечание 5.0 / 1.0 в результате решения).
9 терминов HR аналитики, которые необходимо знать

6. Сокращение (англ. «pruning»)

Вы еще не понимаете это дерево решений? Это очень возможно! В этом параграфе мы сделаем это еще более ясным. Сокращение - это метод, который используется для уменьшения сложности дерева решений. Дерево решений строится с использованием наиболее объясняющего атрибута для разделения его ветвей, и этот процесс продолжается до тех пор, пока дерево не будет завершено. Однако такое дерево может быть большим и сложным. Сокращение - это процесс применения статистического теста для всех ветвей целого дерева. Когда статистический коэффициент достоверности слишком низок, удаляется конкретная ветвь (следовательно, сокращение). Более простое дерево решений менее подвержено переобучению. Overfitting - это то, что происходит, когда дерево становится настолько детализированным, что оно почти идеально подходит для конкретного набора данных. В этом случае точность алгоритма будет уменьшаться при добавлении бОльшего количества данных.
9 терминов HR аналитики, которые необходимо знать
Это то же самое дерево решений, что и выше, но оно не сокращено. Как вы можете видеть, это дерево разбивает прогноз погоды на три различные категории, которые становятся очень специфическими. Они очень хорошо соответствуют данным, но рискуют переусердствовать. Это заметно, когда вы сравниваете точность: сокращенная модель имеет точность 92%, а несокращенная модель идеально описывает данные.

7. Случайный лес (Random forest)

В отличие от метода boosting, техника «случайный лес» рандомизирует алгоритм вместо данных. Обычно алгоритм дерева решений выбирает лучший атрибут для разбиения его ветвей. Однако в случайном лесу эта процедура выбора наилучшего атрибута рандомизирована. Это создает разные деревья решений (отсюда: лес). Эти рандомизированные деревья вместе дают лучший результат.

8. Линейная регрессия

Линейный регрессионный анализ является статистическим методом для оценки взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. В регрессионном анализе используется метод наименьших квадратов для оценки наилучшей подходящей кривой данных. Эта кривая может использоваться для прогнозирования различных результатов. Вы можете ознакомиться с несколькими примерами и бизнес-примером, в котором используется линейная регрессия, в этом блоге.

9. Очистка данных

Очистка данных - это хорошо известный предмет кадровой аналитики. Что это значит? Очистка данных - это процесс просмотра данных, устранения несоответствий и сбора отсутствующих данных для подготовки к анализу. Данные о персонале часто рассматриваются как «грязные». Грязные данные имеют различные определения: некоторые части данных могут отсутствовать, одни и те же критерии могут иметь разные метки, поэтому вы не можете их легко идентифицировать, может быть несколько несоответствующих записей для одного и того же человека в нескольких системах и т. д. Грязные данные являются повторяющимся явлением в многонациональных компаниях. Эти компании часто используют разные системы в разных странах для записи тех же данных. Как только будет небольшая разница в процедурах сбора данных, данные будут непоследовательными.
Этот блог является частью 2 терминов HR-аналитики серии 9, которые вы должны знать. Часть 1 включает такие термины, как интеллектуальный анализ данных, машинное обучение и контролируемое обучение.
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме

Комментариев нет:

Отправить комментарий