Share |

воскресенье, 3 сентября 2017 г.

Поглотит ли машинное обучение психометрику?

Перевод статьи Will Machine Learning Consume Psychometrics?  Andrew Kyngdon в рамках нашего проекта переводы статей по hr-аналитике на английском.
Перевод выполнила Анна Федорова, руководитель одного из hr-направлений крупной телекоммуникационной компании (по ссылке профиль в фейсбуке).
На примере этого перевода я понял, что совершенно не жалею коллег: вчитайтесь и посчитайте, сколько здесь разных терминов..... Анна по сути небольшой курс прошла, чтобы перевести. Коллеги, снимаем шляпу.
Еще переводы Анны

  1. Анализ речи мог сейчас привести вас к повышению
  2. Компания Висконсина предлагает имплантировать микрочипы дистанционного управления своим сотрудникам

Если говорить о нынешней статье, то она, на мой взгляд, крайне важна для движения HR (не говорю про психологов, говорю про профессиональные цели). Я не буду оценивать саму статью, просто обозначу проблему: есть традиционная психометрика, которая представляет всем знакомые тесты, после прохождения которых вы получаем о респонденте набор каких-то цифр, которые могут обозначать какие-либо психологические качества респондента и т.п.. Возникает вопрос о ценности этой информации. Самый консервативный взгляд наших консалтеров предполагает, что сами своей экспертной оценкой могут что то сказать про респондента на основе цифр теста. Кто-то, как я, считают, что эти цифры всего лишь сырой материал для построения прогнозных моделей  HR. Автор статьи пошел еще дальше и говорит, что у нас появился инструмент в виде машинного обучения, который позволит изменить саму природу психометрики: цели, получаемые результаты.
Читаем.

Поглотит ли машинное обучение психометрику?

«Несмотря на структурный консерватизм в области образования, образовательное тестирование находится в процессе становления до неузнаваемости. Инструменты меняются (н-р, онлайн виртуальные симуляции), данные меняются (закодированный курсор и данные кликов), применение изменяется, области применения расширяются. Следовательно, методы анализа изменятся. Я думаю, неизбежно, что методы машинного обучения возьмут верх.»

Несколько месяцев назад, это, в некоторой степени, захватывающее мнение появилось в моем почтовом ящике. Оно было написано американским ученым, занимающимся психометрикой, в процессе интересного дебата, который затерялся в почтовом списке рассылки.
Оно срезонировало также четко, как церковные колокола холодным воскресным утром. В течение некоторого времени я планировал обратиться к образовательному ассессмент центру, которым я руковожу в команде научных данных и машинного обучения. На прошлой недели те планы принесли плоды в виде формального признания направления психометрики и аналитики — первой с австралийским законными полномочиями в образовании. Мои начальные цели были двоякими.
Одна была укрепить существующую экспертизу в психометрике и развить ее. Другая была развить возможности машинного обучения имея командную модель обучения такую как искуственные нейронные сети, метод опорных векторов и метод классификационных и регрессивных деревьев. Я уже начал применять эти модели к существующим наборам данных. Следующий шаг был создать экспертные знания в технологиях Больших Данных таких как  Hadoop, MapReduce and Spark. Я предварительно перевел команду с SAS на R для проведения всех наших психометрических работ и генерации автоматических отчетов; и я хотел развивать наши навыки с другим повсеместным языком машинного обучения -  Python. Все же то электронное письмо от моего современника стимулировало к чему-то более далеко идущему, чем то, что я обдумал. Век старой дисциплины психометрики, направления прикладной статистики, в большей степени основанной на работах Charles Spearman (1904), может потерять свое использование или актуальность для образовательной оценки в недалеком будущем.
Поглотит ли машинное обучение психометрику?

Это несколько смелый прогноз и может вызвать у ученых, занимающихся психометрикой, реакцию, схожую с известным резким ответом Марка Твена, что заявления о его смерти  значительно преувеличены. Кроме того, необходима ли Теория Тестовых Заданий (IRT) для современной онлайн системы оценки такой как Компьютерное Адаптивное Тестирование (CAT)? Ответ на этот вопрос конечно да, но он упускает кавычки. Это не то, что оценка должна «проходить онлайн», как иногда слышится в прихожих и комнатах встреч образовательных организаций. Это то, что сама природа образовательной оценки может быть субъектом глубоких изменений, вызванных цифровыми технологиями.

Нынешняя онлайн оценка, однако, в большей степени зеркало по структуре, стилю и наполнению традиционных тестов «ручка и бумага». Студенты, сидящие на онлайн тестировании вероятно отвечают на Multiple Choice Questions (MCQs) сильно напоминающий тесты, которые они уже видели до этого в бумажном виде. MCQs может быть «украшен», используя возможности современных  HTML, CSS и  Javascript, чтобы создать то, что известно как Технология расширенных вопросов -  Technology Enhanced Items, в котором варианты ответа могут быть в форме выпадающего меню, или могут упорядочиваться или перетаскиваться к соответствующему местоположению на экране.
В любом случае, экзаменуемые ведут себя также, как в ситуации написания традиционного теста, выбирая ответ на каждый вопрос, переходя к следующему вопросу, и так далее, до тех пор пока больше не останется вопросов. Экзаменуемый может после или на некоторых стадиях позже получить обратную связь о его выполнении. Это может быть или общее количество правильных ответов, если тест был последовательным компьютерным тестом (Computer Based Test, CBT), или преобразованная бальная шкала IRT, если это был CAT. Некоторая наглядная обратная связь о том, какое содержание учебной программы освоил экзаменуемый и что ему необходимо повторить в мае также будет предоставлена.
Таким образом, действительно ли точна вышеупомянутая цитата, когда говорит, что оценка становится «неузнаваемой»? Возможно, еще не совсем, но предвестники технологий, которые разрушают обычный подход к онлайн оценке, начинают появляться. Например, изучите работу профессора  Patrick Griffin по совместному решению проблем (Care & Griffin, 2014; и посмотрите его интервью здесь). В феврале этого года я имел удовольствие пригласить профессора  Griffin сделать доклад на работе, и затем принять участие в демонстрации его оценочной платформы с моими коллегами.
Технология Гриффина представляет задачу решения проблем по крайнем мере для двух экзаменуемых, использующих раздельные компьютеры. Проблема появляется как неполная для каждого индивидуального пользователя, и каждый должен работать совместно, чтобы разрешить проблему, используя приложение сообщений. Вместо того, чтобы просто записывать правильный или неправильный ответы, платформа записывает в подробностях всю активность на экране, демонстрируемую участниками, в течение решения задачи, включая обмен сообщениями. Эти данные добавляются в файлы журнала для анализа. Предполагается, что некоторые данные среди записанных связаны с социальными и когнитивными компонентами совместного решения проблем, такими как принятие точки зрения и регулирование задачи. Данные кодируются в наборы позитивных целых чисел (или баллов) для каждого компонента, основанные на силе взаимосвязи между данными и компонентами (более высокое целое число, более сильная ассоциация).
Затем они анализируются психометрической моделью, называющейся «политомической моделью Раша» (Rasch Partial Credit Model (Masters, 1982)), чтобы получить оценки сложности компонентов и способностей участников. Это является критическим наблюдением, чтобы использовать платформу Гриффина. Пока он оценивает когнитивную способность, он делает это без чего-либо похожего на традиционный психометрический тест.  Платформа Гриффина позволяет студентам вместо этого фокусироваться на более важной задаче — изучению, как решать проблемы совместно с другими людьми в реальном времени.
Типичные экзаменационные стратегии такие как тестовая осведомленность, предварительная подготовка эссе, «угадайка» или полное жульничество больше не смогут использоваться. Более того, оценка может быть лучше, чем по сравнению с обычным тестом. Исследование Гриффина установило, что задачи на его платформе не проявляет национальной предвзятости (или Дифференциальное Функционирование Заданий - Differential Item Functioning (DIF)), чем стандартизированные вопросы,  с которыми сталкивается Международная программа по оценке образовательных достижений учащихся (Programme for International Student Assessment, PISA). Они также устойчивы к различиям в языковой принадлежности (Vista, Care and Griffin, 2014).
Факт, что оценка отошла на задний план здесь вызывает следующий вопрос. Какая реальная ценность психометрического моделирования в прошлом? Добавляет ли оно вообще какую-либо реальную ценность? Действительно ли необходимо, или даже целесообразно, суммировать богатый источник данных в последовательность целых чисел, просто чтобы удовлетворить требования психометрической модели, разработанной 35 лет назад, и работать в рамках парадигмы тестирования, основанного на ручке и бумаге?
Не будет ли более продуктивно вместо этого использовать модель машинного обучения? В конце концов, мы сейчас знаем из машинного обучения, что логистическая регрессия, на которой психометрика Теории Тестовых Заданий (IRT) основана, не обязательно включает лучший класс моделей для класификации чего-либо еще (смотрите рейтинги для оценки MNIST распознавания набора данных).
Почему мы не можем использовать случайные леса, чтобы ловко обойти данные и дистиллировать от их характеристик, которые сильно связаны с аспектами совместного решения проблем? Какие характеристики могут сформироваться как важные после анализа с увеличенным регрессионным деревом? Какие задачи решения проблем могла бы искусственная нейронная сеть предложить участниками сделать?  Можем ли мы определить группы навыков или знаний в решении проблем, используя иерархический кластерный анализ и затем записать эти результаты в реальном времени студентам и их учителям?
Смотря на шаг вперед, могли бы данные социальных медиа совершеннолетних участников (предположим, что они дали разрешение получить доступ к ним) рассказать нам о прочности социальных компонентов при совместном решении проблем, такие как принятие точки зрения, участие и социальное регулирование? Мог анализ машинного обучения их данных Фэйсбука точно предсказать успешность выполнения задач Гриффина? Что могли рассказать нам их данные Линкедин? Люди, которые хорошо владеют социальными аспектами разрешения проблем привлечены к определенным отраслям? Или многим отраслям требуются люди, имеющие хорошие навыки как в когнитивных, так и в социальных
аспектах решения проблем?
Более того, что если платформа Гриффина была расширена в технологию виртуальной реальности? Масштаб задач решения проблем мог бы быть значительно расширен и поток получаемых данных обогащен. Например, как могут быть связаны хорошие двигательные навыки или зрительно-моторная координация с регулированием задач при совместом решении проблем? Реальные жизненные сценарии могли также быть изучены, моделируемы или и то, и другое. Например, какие навыки решения проблем использует команда дайверов когда чинит нефтяную вышку? Как они сотрудничают друг с другом и с их коллегами на поверхности?
Эти предположения используют анализ в глубоко интересных и в основном неизведанных водах; все же они очень сложные, чтобы быть изученными с помощью психометрических моделей.
Итак, должны психометристы изучать машинное обучение? Возможно они должны, однако, в реальности это полностью зависит от обстоятельств и наклонностей самого психометриста. Пока законодатели сохраняют требования, что должно быть сделано крупномасшабное стандартизированное тестирование, это будет работа для тех, кто имеет психометрические навыки и опыт в образовательной сфере по крайнем мере.
Однако, быстрый и высокий рост карьер в научных данных не может быть проигнорирован. По этой причине, я полагаю, будет борьба, чтобы нанять людей с наклонностями к количественным моделям в относительно узкой области психометрии. Уровни низких позиций должны по крайней мере предлагать поддержку для  подготовки в машинном обучении. Мало того, что это может привлечь большое количество талантливых претендентов, это может на самом деле привести к более высококвалифицированной работе команды над более интересными проектами, чем просто оценка, с возможностью создать глубокие связи с более широким сообществом научных данных.
Без сомнения может быть некоторый скептицизм относительно этого. В прошлом году один психометрист отметил, что моя работа должна быть «...только процессная роль». Старым учебным обязанностям и ожиданиям психометристов, тем не менее, вероятно уделялось должное внимание достижениями анализа данных, хранения и визуализации, вызванное неумолимым прогрессом в цифровых технологиях и машинном обучении. Старые способы обучения психометристов, образовывая университетские исследовательские центры; обучение новичков в психометрических моделях, считающихся приемлемыми основателями (н-р, модель Раша против 2PL/3PL); принуждение новичков использовать дорогие «законсервированные» приложения, одобренные основателями; стимулирование их писать научные работы, опубикование которых может занять месяцы или годы; и затем предлагая карьерный рост, по больше части ограниченный образовательной сферой или научными кругами, не будут «лучшими практиками» в ближайшем будущем. Вероятно, это уже не так.
Только время покажет, но я подозреваю, чо сценарий на стене. Потому что преимущество оценочных платформ таких как платформа Гриффина генерируют данные, которые больше напоминают большие данные, чем те, которые получены с помощью традиционного психометрического теста, машинное обучение, вероятно, поглотит психометрику.
Ссылки
Care, E. and Griffin, P. (2014). An approach to assessment of collaborative problem solving. Research and Practice in Technology Enhanced Learning, 9, 367-388.
Kreiner, S. & Christensen, K.B. (2014). Analyses of model fit and robustness. A new look at the PISA scaling model underlying ranking of countries according to reading literacy. Psychometrika, 79, 210-231.
Masters, G. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174.
Spearman, C. (1904). General intelligence, objectively determined and measured. American Journal of Psychology, 15, 201-293.
Vista, A., Care, E. & Griffin, P. (2015). Development of an online test of problem solving ability that minimises the extraneous differential effects of language background and subsequent validation through a large-scale DIF analysis. International Journal of Educational Research, 69, 71-87.
__________________________________________________________
На этом все, читайте нас в фейсбуке и телеграмме

Комментариев нет:

Отправить комментарий

Популярные сообщения

п