.

Сделать репост в соц сети!

четверг, 22 февраля 2018 г.

Как читать диаграмму boxplot (ящик с усами). На конкретном примере



Очень замечательный опрос проходил у нас вчера в телеграм канале (присоединяемся). Вопрос звучал просто:
 Коллеги, на картинке выше показана диаграмма boxplot - ящик с усами. Прошу честно ответить, умеете ли Вы читать этот тип диаграммы

Диаграмма такого типа

Как читать диаграмму boxplot (ящик с усами). На конкретном примере

Если Вам удобней видео объяснение, то рекомендую видеоролик YouTube


Результаты опроса получились такие:

Как читать диаграмму boxplot (ящик с усами). На конкретном примере


Итого у нас на одного знающего двое не знающих. Это канал HR-аналитики. Смею предположить, что в каналах просто HR, без аналитики, % знающих будет еще меньше. 
Мораль: аналитика начинается со знания boxplot.

Попробую объяснить

Представьте, что в вашу компанию пришла проводить тестирование одна консалтинговая компания. Тест по их заявлениям очень крутой, прошел пять валидизаций и был принят в конкурсе "Лучшие лидеры Родины". Но Вы, конечно же, ориентируетесь не на рекламу, а на цифры, поэтому вы смотрите на диаграммы. Предположим вы протестировали своих руководителей по этому тесту и получили

Гистограмма

Как читать диаграмму boxplot (ящик с усами). На конкретном примере


Эта диаграмма позволяет увидеть, как распределены результаты наших работников, например, по шкале "мотивация". Шкалы теста имеют 100 балов - от 0 до 100. 
К нашем удивлению, бОльшая часть наших работников показывают результаты близкие к верхней границе. Из курса статистики факультета психологии мы помним, что результаты хорошего текста должны иметь нормальное распределение что-то типа
Как читать диаграмму boxplot (ящик с усами). На конкретном примере

Диаграмма плотности вероятности (density plot)

Поскольку мы не верим своим глазам, а также потому, что у компании очень серьезная репутация, а еще потому, что HR директор сказал: будем работать с этой компанией, несмотря на то, что их тесты говно, Вы решили посмотреть другой тип диаграммы
Как читать диаграмму boxplot (ящик с усами). На конкретном примере
Эта диаграмма обозначает тоже самое, что наша первая гистограмма, только вместо количества работников здесь показана плотность вероятности. Или %. Левая шкала означает эти самые %. И с учетом, что у нас в шкале 100 балов, самый популярный результат имеет чуть больше 3-х %.
Но сути теста нам это не меняет. И мы решили посмотреть таки

Boxplot (ящик с усами)

Как читать диаграмму boxplot (ящик с усами). На конкретном примере
Вы понимаете, что эта диаграмма обозначает тоже самое, что вышеприведенные диаграммы, но как это читать? 
Читаем так


  • Минимальное значение - мы видим, что минимальное значение по нашей выборке примерно 47 балов.
  • Нижний квартиль - 25 % нашей выборки показало результат меньше 75 балов по шкале "мотивация"
  • Медиана - 50 % наших тестируемых показали результат меньше (и больше тоже) 87 балов. 
  • Верхний квартиль - 25 % показали результаты выше 95 балов.
  • И максимальный результат 99.
  • Выбросы - те чуваки, который показали очень далекие результаты от общей выборки. Формулы определения выборосов бывают разными, в нашем случае посчитано так: берем верхний квартиль (95), отнимаем нижний квартиль (75), получаем 20, умножаем на 1,5, получаем 30 (это число называется 1, 5 межквартильных расстояний), от нижнего квартиля (75) отнимаем 30 и получаем 45. Все, что ниже 45 - выбросы.
Кстати говоря, хотите сами научиться строить такое, приходите Семинар-практикум "HR-Аналитика в R", Москва,23-24 апреля 2018

Интерпетация

И вот у нас теперь возникает вопрос: если больше половины наших работников показали результаты выше 87 балов по 100 бальной шкале, что нам это говорит о тесте? И стоит ли его после этого применять?
..............................................................
Итого, сегодня мы узнали, что такое boxplot, но от теста нам избавиться не позволило, потому что в математике свои законы, а в бизнесе другие.



__________________________________________________________
На этом все, читайте нас в телеграмме и вконтакте




4 комментария:

  1. "Из курса статистики факультета психологии мы помним, что результаты хорошего текста должны иметь нормальное распределение что-то типа" - только если тест создан по классической теории, как нормативно-ориентированный. Если по современной теории, как критериально-ориентированный, то распределение может быть абсолютно не симметричным, и как следствие, не нормальным.

    ОтветитьУдалить
    Ответы
    1. Если мы проходили критериально ориентированные тесты, то должны были запомнить, что критериально ориентированные тесты относятся к тестам достижений.
      А у меня в шкале теста есть подпись - мотивация.

      мне сложно представить, чтобы мотивация измерялась тестом достижения. А вам?

      * если вы захотите ответить, то предлагаю таки представиться. Анонимный ответ не будет размещен

      Удалить
  2. Здравствуйте! Очень хорошая и понятно написанная статья. На последнем рисунке границы усов корректнее обозначить, как верхняя и нижняя границы, поскольку максимальное и минимальное значение выборки могут быть выбросами.

    ОтветитьУдалить
    Ответы
    1. да, спасибо! я тут ступил - вы абсолютно правы

      Удалить