После знакомства с публикацией "Влияние гендера команды на успешность в игре ЧТО ГДЕ КОГДА" возникла идея
поиска причин по которым мужские команды более успешны в этой игре.
Данные брались с сайта http://rating.chgk.info
Для анализа были взяты результаты игр 2015-2017
года. В общей сложности в этих играх приняло участие 2400 команд. Далее мы по
ФИО игроков команды определили пол и высчитали долю женщин в команде. Из нашей
выборки мы удалили команды в которых было меньше 4-х игроков, так как феномен diversity должен возникать как синергетический эффект от группы (мы
знаем, что многие эффекты в группе из 3 человек просто не возникают).
В качестве критерия эффективности мы выбрали не рейтинг,
т.к он сильно зависит не только от успешности команды, но и от количества
сыгранных игр, а количество правильных ответов команды на турнире. Так как в
каждом турнире общее количество вопросов отличается (да и сложность бывает
разная), то мы приняли решение перевести количество правильных ответов в z-баллы (стандартизировали).
Это удобно, т.к. теперь все результаты больше 2 баллов - очень хорошие, а
меньше -2 баллов плохие.
Давайте посмотрим на эффективность трех видов команд:
чисто женских, чисто мужских и поло-разнообразных.
Картинка крайне печальная: чисто женские команды очень сильно уступают
в эффективности двум другим типам команд. Но нас волнует вопрос: действительно
ли половое разнообразие команды улучшает эффективность. На гистограмме видно,
что чисто мужские команды несколько лучше отвечают на вопросы. Давайте проверим
эту гипотезу статистически.
Таблица 1. Результаты регрессии: зависимость эффективности команды от полового
состава команды и количества участников
Предикторы
|
b
|
b
95%
CI
[LL,
UL]
|
Fit
|
(Intercept)
|
-1.26**
|
[-1.36,
-1.16]
|
|
Только
женщины
|
-0.83**
|
[-0.97,
-0.69]
|
|
Только
мужчины
|
0.23**
|
[0.19,
0.28]
|
|
Количетсво
игроков
|
0.24**
|
[0.23,
0.26]
|
|
R2
= .062**
|
|||
95%
CI[.05,.07]
|
|||
Результаты опять печальные: женские команды играют хуже смешанных
команд, а мужские играют лучше всех.
Вот тут возникла гипотеза: возможно, женщины плохо играют в среднем, но
на высокие результаты команды это влияния не оказывает. На такую гипотезу навел
пик в графике плотности распределения.
Для проверки этой гипотезы строим три регрессионных прямых - для
высоких, средних и плохих результатов команд. Так как шкала эффективности стандартизованная,
то мы выбрали следующие критерии: высокие больше 2 баллов, низкие - меньше -1 (меньше
-2 достаточно мало наблюдений). Получили следующую картину.
Теперь видно, что на достижение высоких результатов доля женщин
практически не влияет (наклона красной прямой нет). Можно заметить, что для
команд с высокой долей женщин недостаточно наблюдений (широкие доверительные
интервалы)
Также видно, что доля женщин не влияет на плохие результаты игры (наклона
зеленой прямой нет).
А вот в сегменте средних результатов чем больше женщин в команде, тем
хуже результаты. И женские команды не достигали высоких результатов НИ РАЗУ!!!
(это удивительный результат, т.к. в нашем датасете 15 000 наблюдений)
Но ведь нас волнует гипотеза о достижении более высоких результатов
смешанными командами. Проверим ее статистически.
Таблица 2. Результаты регрессии: зависимость эффективности команды от типа
команды и количества участников (для команд достигающих высокие результаты)
Предикторы
|
b
|
b
95%
CI
[LL,
UL]
|
Fit
|
(Intercept)
|
2.08**
|
[1.83,
2.33]
|
|
Мужские
команды
|
0.05
|
[-0.03,
0.12]
|
|
Количество
игроков в команде
|
0.04
|
[-0.00,
0.08]
|
|
R2
= .012
|
|||
95%
CI[.00,.04]
|
|||
заметка. * показывает p < .05; ** показывает p
< .01. В интерсепте смешанные команды.
Гипотеза о том,
что смешанные команды лучше мужских - НЕ подтвердилась. Между этими типами
команд вообще нет значимых различий. А это значит, что в достижении высоких
результатов мужские команды не имеют преимущества перед смешанными.
Нам не дает
покоя ситуация с худшими показателями женщин в среднем сегменте результатов.
Для изучения этого феномена мы обратились к статистики каждого игрока. Всего
зарегистрировано 34160 игроков. Посмотрим на гистограмму среднего количества
игр в год, которые играют мужчины и женщины.
Видно, что в
сегменте небольшого числа игр женщин в два раза больше, т.е. на турнирах в два
раза больше неопытных игроков женщин, чем мужчин. Это может объяснять
полученные нами данные о негативном влиянии доли женщин на эффективность
команды. В будущем надо нормировать команды по игровому опыту и посмотреть
останется ли это негативное влияние.
Чтобы совсем
успокоить себя, посмотрим на следующий график.
Видно, что женщин достигающих высокие места (в среднем) в турнирной таблице больше, чем мужчин.
Александр, а что обозначает третья диаграмма?
ОтветитьУдалитьне подписаны названия, поэтому по счету третья
Третий рисунок это среднее количество игр в год, которое играет игрок.
Удалитьпростите, тогда второй. я просто не понял, что именно вы нормировали
УдалитьКаждая команда на турнире отвечает на определенное количество вопросов. Но количество вопросов и их сложность на каждом турнире разная. поэтому я для каждого турнира вычитал из количества взятых командой вопросов среднее по турниру и делил на стандартное отклонение по этому турниру.
Удалитья сообразить тогда не могу: а почему вы взяли край в два стандартных отклонения - это же менее 5 %. Хотя по диаграмме ну кажется, что это так
УдалитьХотелось проанализировать выдающиеся результаты. И немного реабилитировать участие женщин в команде. При одном стандартном отклонении опять женские команды проигрывают
Удалитьмне бы тоже хотелось женщин реабилитировать)
УдалитьАлександр, смотрите, какая интересная штука: женщины в среднем более высокие места занимают в рейтинге, а команды с участием женщин - более низкий % правильных ответов)
И тогда бы уже рекомендовал сделать не только очистку влияния эффекта опыта, но и модель с включением опыта как составляющей diversity
ОтветитьУдалитьТ.е. например взять дисперсию опыта как показатель diversity команды.
Единственное ограничение, почему я не стал копать в этом направлении: админ сайта сообщил мне, что данные по игрокам очень неполны - речь про опыт.
Поэтому я не стал копать дальше.
спасибо, что двигаетесь в этом направлении
Данные действительно не полны. Там даже возраста нет. Но можно помимо среднего уровня игр в год посчитать количество игровых лет. Но для этого надо учиться работать с временными рядами.
Удалитьвопрос в том, что данные по игрокам ведутся крайне неравномерно
УдалитьИ если вы, например, вычислите что Иванов играет 4 года, это не означает правду. Просто на него могли вестись данные только за 4 года.
Но раз пошла такая пьянка, то я попробую вытащить - не раньше лета, видимо, сезон начался.