.

Сделать репост в соц сети!

пятница, 9 марта 2018 г.

Нужно ли нам гендерное разнообразие? (на примере Что?Где?Когда?)







После знакомства с публикацией "Влияние гендера команды на успешность в игре ЧТО ГДЕ КОГДА" возникла идея поиска причин по которым мужские команды более успешны в этой игре.

Данные брались с сайта http://rating.chgk.info

Для анализа были взяты результаты игр 2015-2017 года. В общей сложности в этих играх приняло участие 2400 команд. Далее мы по ФИО игроков команды определили пол и высчитали долю женщин в команде. Из нашей выборки мы удалили команды в которых было меньше 4-х игроков, так как феномен diversity должен возникать  как синергетический эффект от группы (мы знаем, что многие эффекты в группе из 3 человек просто не возникают).

В качестве критерия эффективности мы выбрали не рейтинг, т.к он сильно зависит не только от успешности команды, но и от количества сыгранных игр, а количество правильных ответов команды на турнире. Так как в каждом турнире общее количество вопросов отличается (да и сложность бывает разная), то мы приняли решение перевести количество правильных ответов в z-баллы (стандартизировали). Это удобно, т.к. теперь все результаты больше 2 баллов - очень хорошие, а меньше -2 баллов плохие.

Давайте посмотрим на эффективность трех видов команд: чисто женских, чисто мужских и поло-разнообразных.

  

Картинка крайне печальная: чисто женские команды очень сильно уступают в эффективности двум другим типам команд. Но нас волнует вопрос: действительно ли половое разнообразие команды улучшает эффективность. На гистограмме видно, что чисто мужские команды несколько лучше отвечают на вопросы. Давайте проверим эту гипотезу статистически.

Таблица 1. Результаты регрессии: зависимость эффективности команды от полового состава команды и количества участников
Предикторы
b
b
95% CI
[LL, UL]
Fit
(Intercept)
-1.26**
[-1.36, -1.16]

Только женщины
-0.83**
[-0.97, -0.69]

Только мужчины
0.23**
[0.19, 0.28]

Количетсво игроков
0.24**
[0.23, 0.26]




R2   = .062**



95% CI[.05,.07]





Результаты опять печальные: женские команды играют хуже смешанных команд, а мужские играют лучше всех.
Вот тут возникла гипотеза: возможно, женщины плохо играют в среднем, но на высокие результаты команды это влияния не оказывает. На такую гипотезу навел пик в графике плотности распределения.
Для проверки этой гипотезы строим три регрессионных прямых - для высоких, средних и плохих результатов команд. Так как шкала эффективности стандартизованная, то мы выбрали следующие критерии: высокие больше 2 баллов, низкие - меньше -1 (меньше -2 достаточно мало наблюдений). Получили следующую картину.

Теперь видно, что на достижение высоких результатов доля женщин практически не влияет (наклона красной прямой нет). Можно заметить, что для команд с высокой долей женщин недостаточно наблюдений (широкие доверительные интервалы)
Также видно, что доля женщин не влияет на плохие результаты игры (наклона зеленой прямой нет).
А вот в сегменте средних результатов чем больше женщин в команде, тем хуже результаты. И женские команды не достигали высоких результатов НИ РАЗУ!!! (это удивительный результат, т.к. в нашем датасете 15 000 наблюдений)

Но ведь нас волнует гипотеза о достижении более высоких результатов смешанными командами. Проверим ее статистически.

Таблица 2. Результаты регрессии: зависимость эффективности команды от типа команды и количества участников (для команд достигающих высокие результаты)
Предикторы
b
b
95% CI
[LL, UL]
Fit
(Intercept)
2.08**
[1.83, 2.33]

Мужские команды
0.05
[-0.03, 0.12]

Количество игроков в команде
0.04
[-0.00, 0.08]




R2   = .012



95% CI[.00,.04]




заметка. * показывает p < .05; ** показывает p < .01. В интерсепте смешанные команды.

Гипотеза о том, что смешанные команды лучше мужских - НЕ подтвердилась. Между этими типами команд вообще нет значимых различий. А это значит, что в достижении высоких результатов мужские команды не имеют преимущества перед смешанными.

Нам не дает покоя ситуация с худшими показателями женщин в среднем сегменте результатов. Для изучения этого феномена мы обратились к статистики каждого игрока. Всего зарегистрировано 34160 игроков. Посмотрим на гистограмму среднего количества игр в год, которые играют мужчины и женщины.


Видно, что в сегменте небольшого числа игр женщин в два раза больше, т.е. на турнирах в два раза больше неопытных игроков женщин, чем мужчин. Это может объяснять полученные нами данные о негативном влиянии доли женщин на эффективность команды. В будущем надо нормировать команды по игровому опыту и посмотреть останется ли это негативное влияние.
Чтобы совсем успокоить себя, посмотрим на следующий график.
Видно, что женщин достигающих высокие места (в среднем) в турнирной таблице больше, чем мужчин.


10 комментариев:

  1. Александр, а что обозначает третья диаграмма?
    не подписаны названия, поэтому по счету третья

    ОтветитьУдалить
    Ответы
    1. Третий рисунок это среднее количество игр в год, которое играет игрок.

      Удалить
    2. простите, тогда второй. я просто не понял, что именно вы нормировали

      Удалить
    3. Каждая команда на турнире отвечает на определенное количество вопросов. Но количество вопросов и их сложность на каждом турнире разная. поэтому я для каждого турнира вычитал из количества взятых командой вопросов среднее по турниру и делил на стандартное отклонение по этому турниру.

      Удалить
    4. я сообразить тогда не могу: а почему вы взяли край в два стандартных отклонения - это же менее 5 %. Хотя по диаграмме ну кажется, что это так

      Удалить
    5. Хотелось проанализировать выдающиеся результаты. И немного реабилитировать участие женщин в команде. При одном стандартном отклонении опять женские команды проигрывают

      Удалить
    6. мне бы тоже хотелось женщин реабилитировать)
      Александр, смотрите, какая интересная штука: женщины в среднем более высокие места занимают в рейтинге, а команды с участием женщин - более низкий % правильных ответов)

      Удалить
  2. И тогда бы уже рекомендовал сделать не только очистку влияния эффекта опыта, но и модель с включением опыта как составляющей diversity
    Т.е. например взять дисперсию опыта как показатель diversity команды.

    Единственное ограничение, почему я не стал копать в этом направлении: админ сайта сообщил мне, что данные по игрокам очень неполны - речь про опыт.
    Поэтому я не стал копать дальше.
    спасибо, что двигаетесь в этом направлении

    ОтветитьУдалить
    Ответы
    1. Данные действительно не полны. Там даже возраста нет. Но можно помимо среднего уровня игр в год посчитать количество игровых лет. Но для этого надо учиться работать с временными рядами.

      Удалить
    2. вопрос в том, что данные по игрокам ведутся крайне неравномерно
      И если вы, например, вычислите что Иванов играет 4 года, это не означает правду. Просто на него могли вестись данные только за 4 года.
      Но раз пошла такая пьянка, то я попробую вытащить - не раньше лета, видимо, сезон начался.

      Удалить