.

Сделать репост в соц сети!

воскресенье, 30 сентября 2018 г.

Связь между интеллектом и временем прохождения теста




Достаточно очевидная гипотеза: есть ли связь между интеллектом и временем прохождения теста. Я постараюсь сделать пост так, чтобы он был интересен и тем, кто работает в R, и тем, кого просто результаты интересуют. Т.е. я буду показывать как диаграммы, так и код.
Если Вы работаете в R, у вас должны быть установлены два пакета:

"devtools"
"HRanalytics"
Установить их можно так, как указано по ссылке Пакет R HR analytics для HR аналитиков. В пакете HRanalytics собраны часть результатов нашего исследования факторов эффективности и текучести персонала, и, если кто-то помнит, респонденты могли пройти тесты Лаборатории Гуманитарные Технологии:
  1. тест способностей КТО
  2. личностный опросник Big5
Отчет по тестированию включал помимо результатов теста время прохождения теста в таком формате

0:28:38 
0:27:40 
0:28:51 
0:21:30
Т.е. у нас сразу встает задача перевести данный формат в удобоваримый. Давайте по порядку.
Загружаем необходимые пакеты
library(dplyr)э
library(HRanalytics)
data(survey)
str(survey)
В файле survey куча ненужных нам переменных, поэтому мы формируем отдельный файл в помощью команды select пакета dplyr
tests1 =select(survey, overall=Ш1...ОБЩИЙ.БАЛЛ., time=ПРОДОЛЖИТЕЛЬНОСТЬ )
tests1 = tests1[complete.cases(tests1$time),]
Вторая команда нужна, чтобы убрать много пустых строк: у нас далеко не все респонденты проходили тесты. Итого у нас 1 208 строк, что достаточно для исследования. Теперь самое интересное: давайте переведем наш формат времени в минуты.
obj = strsplit(as.character(tests1$time), ":") # делим текст на объекты по запятой
obj[1:5] # посмотрим, что представляет из себя объект
tests1$часы = as.integer(lapply(obj, '[', 1)) # превращаем последовательно объект в часы, минуты и секунды
tests1$минуты = as.integer(lapply(obj, '[', 2)) 
tests1$секунды = as.integer(lapply(obj, '[', 3)) 

tests1$времятеста = tests1$часы*60+tests1$минуты+tests1$секунды/60 # а теперь сведем в одну переменную 
tests1$времятеста = round(tests1$времятеста, 1) # ограничим одним знаком # ну и для марафета ограничимся одним знаком после запятой
И посмотрим, что из себя время прохождения теста представляет
summary(tests1$времятеста)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   3.60   22.37   25.45   35.47   28.90 1092.00 
Диаграмма
hist(tests1$времятеста)
Связь между интеллектом и временем прохождения теста

Не очень интересная картина: видите справа свыше 1000 минут кто-то проходил? Это явно либо баг системы, либо просто респонденты оставляли тесты незавершенными, уходили куда-то, не выйдя из системы. Поэтому я с потолка беру идею: все, что больше часа по прохождению, означает, что респондент отвлекался от прохождения теста. Обрезаю по 60 минут и заново строю диаграмму
tests2 = subset(tests1, tests1$времятеста <= 60)
hist(tests2$времятеста)
summary(tests2$времятеста)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   3.60   22.20   25.40   25.97   28.60   59.10 
Эти результаты кажутся более осмысленным, хотя стоило бы еще как-то обрезать слева: ну нереально пройти батарею тестов за 3.6 минуты, согласны?
Связь между интеллектом и временем прохождения теста



Распределение кажется нормальным, но давайте все-таки проверим распределение на нормальность с помощью теста Шапиро-Уилка
shapiro.test(tests2$времятеста)

	Shapiro-Wilk normality test

data:  tests2$времятеста
W = 0.92625, p-value < 2.2e-16

> shapiro.test(tests2$overall)

	Shapiro-Wilk normality test

data:  tests2$overall
W = 0.99435, p-value = 0.0002018
P-value менее 0, 05 говорит нам о том, что распределение обоих переменных распределено ненормально, значит для проверки гипотезы о наличии связи между временем прохождения теста и интеллектом мы должны применять не коэффициент корреляции Пирсона, а непараметрический - Спирмена.
hist(tests2$overall)
А на диаграмме распределение ответов по шкале общих способностей теста КТО кажется вполне нормальным
Связь между интеллектом и временем прохождения теста

Давайте теперь проверим гипотезу о наличии взаимосвязи между интеллектом и временем прохождения теста с помощью коэффициента корреляции Спирмена
cor.test(tests2$времятеста, tests2$overall, method = c("spearman") )

	Spearman's rank correlation rho

data:  tests2$времятеста and tests2$overall
S = 317090000, p-value = 8.552e-09
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
-0.166812 
p-value = 8.552e-09 и означает, что связь есть, -0.166812 связь не очень тесная, но она есть и она отрицательная. Последнее выглядит логичным: чем больше время прохождения теста, тем меньше интеллект.
Визуализируем

Связь между интеллектом и временем прохождения теста


По оси X время прохождения теста в минутах, по оси Y - результаты теста КТО, шкала общих способностей. Для очистки совести я убрал тех, кто проходил тесты менее 15 минут (предполагая, что эти респонденты просто бросали тест, не выполняя его до конца)
> tests3 = subset(tests2,  tests2$времятеста >= 15)
> cor.test(tests3$времятеста, tests3$overall, method = c("spearman") )

	Spearman's rank correlation rho

data:  tests3$времятеста and tests3$overall
S = 310710000, p-value = 2.575e-13
alternative hypothesis: true rho is not equal to 0
sample estimates:
       rho 
-0.2130846 
P-value и коэффициент корреляции показывают более высокую связь, чем в предыдущем случае. Таким образом, мы можем говорить о наличии связи между временем прохождения теста и интеллектом (шкалой общих способностей теста КТО).

__________________________________________________________

На этом все, читайте нас в фейсбуке, телеграмме и вконтакте




суббота, 29 сентября 2018 г.

От e-learning к we-learning



Публикой статье уже скоро 10 лет. Автор статьи Джош Берзин, он приезжает в октябре 2018 года в Россию. Я решил показать эту статью, как первую статью, в которой мне впервые открылся Джош Берзин, как очень яркий автор со свежими идеями. Почувствуйте стиль автора.

От e-learning к we-learning

От e-learning к we-learning с учетом уроков прошлого
В отрасли корпоративного обучения происходят глобальные изменения. В течение последних нескольких месяцев мы обсуждали с организациями огромные потребности в построении, управлении и упорядочивании программ социального и коллаборативного обучения. Необходимость изменений обусловлена многими факторами: замедление темпов экономики, неограниченный доступ к сети у персонала, начавшийся бум программных средств и платформ для социальных сетей.

От e-learning к we-learning


По многим признакам, такой переход очень напоминает последнее важное событие, произошедшее в мире корпоративного обучения – вступление в эру e-learning. Сам термин «e-learning» начал употребляться в 1998 году, и в последующие 10 лет мы существенно пересмотрели свои взгляды на обучение.

Мне думается, что сегодняшняя трансформация аналогична, и у нас есть, чему поучиться из истории. В серии публикуемых статей в нашем блоге мы будем освещать события вокруг изучаемого нами процесса – современный переходный период от e-learning к we-learning.


История E-Learning (онлайн обучение) и чему мы научились


E-learning радикально изменило индустрию обучения. В 2000 и 2001 произошли два значимых сдвига: в качестве новой компьютерной платформы появился интернет, и в США началась рецессия. Эти два фактора вместе создали мощный фокус на процессе перевода тренинговых программ и материалов из категории «под руководством инструктора» в «онлайн». Как многие, наверное, помнят, в те времена даже ходили слухи о приближающемся закрытии реальных учебных заведений, так как все ринулись обучаться и получать образование в сети.

Сегодня, конечно e-learning находится на стадии зрелости, поэтому на рынке представлено множество форм онлайн обучения и образования. Мы можем применить формы «Быстрого онлайн обучения» (с помощью PowerPoint и Flash технологий), моделирование работы с приложениями, моделирование бизнес-процессов, использовать анимированных персонажей, аудио, видео, и еще много других интерактивных элементов учебного процесса.

Во многих средних школах и университетах Интернет активно используется для раздачи материалов для занятий, общения между инструкторами и студентами, а также для распространения ключевых тренинговых инструментов. В наши дни учебные материалы можно найти буквально везде: начиная от YouTube, заканчивая экзаменационной комиссией по выдаче водительских прав в штате Калифорния (кстати, включая «школы безопасного вождения»). Теперь мы можем просматривать и работать с данными материалами с помощью современных сотовых телефонов, ноутбуков, и компьютеров буквально повсюду.

Более того, первоначальные «концепции» e-learning также претерпели некоторые изменения. В первые несколько лет компании стремились как можно скорее разместить в сети существующие слайды и учебные материалы. Первооткрывателем данного подхода стала компания SkillSoft, крупнейший игрок на рынке учебного контента. Сегодняшние программы e-learning очень сильно разнятся с обучением под руководством инструктора: они демонстрируются и работают как фильмы в режиме реального времени, онлайновые видео игры, и виртуальные опыты с полным погружением.

И благодаря тому, что мы, как профессионалы обучения, требовали все больше программных средств, эта отрасль также заметно выросла. Поглощение Macromedia корпорацией Adobe было очевидно обусловлено ошеломляющим успехом компании Macromedia в продаже своих продуктов Breeze, Dreamweaver, и прочих средств, разработанных для индустрии по разработке учебных материалов.

Итак, эти двенадцать лет эволюции e-learning были волнующими, инновационными и трансформационными. Сейчас многие корпоративные клиенты отвечают, что 70% и выше их корпоративного обучения (измеряемого учебными часами) осуществляется в режиме онлайн. Еще в 1998 году о таком никто и не мечтал.



Мы вступаем в эру We-Learning (обучения «друг от друга»)



И вот мы снова оказались на пороге новой эры. Ее называют «социальным обучением», «неформальным обучением», и «коллаборативным обучением». (Хотя в действительности наше исследование выявило, что термин «неформальное обучение» на самом деле заключается в целом наборе новых методов, включая обучение по запросу, интегрированное обучение (без отрыва от работы), а также социальное обучение. Все эти элементы нашли отражение в Схеме обучения на предприятии (Enterprise Learning Framework), над которой мы работали в течение почти двух лет.

Теперь, когда компании воодушевлены новой концепцией we-learning, пора задуматься, чему нас может научить буквально недавно прошедшая эволюция?


1. We-Learning сместит акценты от традиционного обучения и создаст потребность изучать новые дисциплины.


We-learning включает в себя простую и глубокую истину, что любая организация обладает накопленными знаниями и опытом, которым необходимо делиться. В данной концепции признается тот факт, что отдел по обучению персонала может иметь не более 5-10% знаний, требуемых и используемых в компании. Организационное обучение происходит в режиме реального времени – этот процесс постоянно меняется и приобретает все большую ценность.

Подобно тому, как e-learning сместило инструктора перед аудиторией, we-learning отчасти сместит дизайнера учебного процесса и разработчика тренингов. Нам необходимо позиционировать себя в роли фасилитаторов, организаторов, и проводников коллаборативного обучения - мы не должны обязательно выступать в роли авторов или дизайнеров.

И мы должны будем отказаться от нескольких старых парадигм. Я помню многочисленные споры с дизайнерами учебных программ, которые убеждали меня, почему так ужасна сама идея «быстрого обучения». Что ж, мы должны сделать выводы из этого опыта и продолжать работать уже с новыми подходами. Многие из наших клиентов в настоящее время пересматривают свои модели дизайна обучающих программ в сторону создания «обучающей среды», которая подразумевает «встроенные» функции коллаборативного и социального обучения.

И здесь есть пути повышения собственной ценности – наше исследование показывает, что для успеха современной команды по обучению и профессиональному развитию требуется целый набор новых дисциплин. Также как нам приходилось осваивать Flash, медиадизайн, разработку контента во время эры e-learning, теперь нам надо изучать управление сообществом, тегирование, информационную архитектуру и аналитику.
Более подробное изложение данных пунктов – в отчете о результатах научного исследования «Практики обучения с высокой степенью воздействия» (High Impact Learning Practices®), где также можно найти детальное описание и набор оценочных средств, которые помогут вам освоить новые дисциплины для L&D).

2. Несмотря на предсказания, e-learning не погубило традиционное обучение и образование. Поэтому и новая концепция we-learning не сможет полностью заместить тщательно разработанные программы обучения.


Я помню, как много статей предрекало скорую смерть обычного обучения. Все оказалось частью PR. И оглядываясь назад, мы теперь точно знаем, что традиционное обучение не исчезнет. Организациям до сих пор требуется формальное обучение и аттестация для формирования базового уровня знаний и навыков по многим позициям. Но теперь мы признаем тот факт, что действительно более 80% индивидуального обучения мы получаем через иные источники – наставников, экспертов, менеджеров, и коллег по работе.

Подобно этому we-learning не погубит необходимость в разработке программ формального обучения, формальном обучении и обучении под руководством инструктора. Оно, более вероятно, расширит и улучшит традиционные формы обучения – во многих случаях сделает формальное обучение более эффективным. Если вы, будучи экспертом в какой-то теме, сможете подключиться к коллективному разуму сотен людей, которые применяют на практике то, что вы уже знаете, вы можете быстрее повысить свой уровень – это поможет вам разработать еще более эффективные средства и программы в ваших формальных программах.

Но позвольте заметить, что в настоящее время мы наблюдаем воистину революционные явления. В таких компаниях как Sun, BT, ФРС, Network Appliance, Cisco, EMC, и многие другие компании стратегии коллаборативного обучения создают еще более ускоренные продуктовые циклы, лучшее обслуживание клиентов, и новые пути развития людских ресурсов. Так, BT уверена, что их сеть Dare2Share (полностью открытый YouTube для обучающих программ) позволили сэкономить более 15 миллионов долларов за первый год. Эта экономия образовалась за счет того, что люди перестали задавать глупые вопросы менеджерам и выдумывать пути решения проблем, которые были решены до них другими людьми.


3. We-Learning создаст рынок для большого количества новых средств и платформ.


Также как e-learning породил современную систему управления обучением LMS, разнообразие средств развития, и крупные инвестиции в менедежмент контента, we-learning также породит и будет поддерживать великое множество новых инструментов и систем с целью управлять, отслеживать, и фасилитировать людей, работающих вместе онлайн.

Этому способствуют некоторые крупные компании: Google инвестирует разработку Google Wave; Microsoft инвестирует Sharepoint и Live Services; Adobe инвестирует очень крупные суммы в разработку Adobe Connect и других продуктов; Cisco инвестирует миллионы в Webex; а Citrix запустил удивительный набор новых инструментов на GotoMeeting и его семействе, и это только первые ласточки. Отдельную благодарность заслужили Facebook, LinkedIN, Ning, и остальные сайты социальных сетей за разные инновационные идеи, которые будут стремительно копироваться в системах корпоративного обучения.

В период e-learning мы поняли, что инструменты будут изменяться. Если сегодня мы используем Jive или Sharepoint в качестве платформы социального обучения, приготовьтесь к тому, что впереди нас ждет что-то новое и совершенно отличное. Новый модуль планирования развития Taleo, новая среда Социального Обучения, и новое средство для управления талантами Plateau Talent Gateway дают нам инструменты и парадигмы для того, чтобы содействовать коммуникации и совместному использованию знаний. И я действительно убежден, что мы найдем способы «запрячь» Твиттер и другие средства коммуникации на основе коротких сообщений и использовать их в учебных целях.

4. We-Learning изменит наше поведение в корпоративном обучении.


Также как e-learning позволило прекратить практику отправлять в командировку людей, we-learning изменит наше представление о том, где и как люди учатся. Посмотрите на новую систему обучающего обмена Sun Learning Exchange от Sun Microsystems. Эта платформа позволяет людям находить и смотреть видео, аудио, и другие материалы от экспертов; она позволяет скачивать и подписываться на рассылки по сферам интереса, присылаемые на мобильный телефон, пользователи также могут получать обновления и размещать свои комментарии по электронной почте.

Также как e-learning освободило нас от необходимости обучаться в аудитории, we-learning освободит нас от необходимости сидеть у стационарного компьютера. Я не удивлюсь, если коллаборативное обучение будет все чаще происходить через сотовые телефоны и другие мобильные устройства.

При написании книги «Смешанные формы обучения» (The Blended Learning Book) я изучил 17 различных элементов обучающих носителей информации, и как они могут быть соединены. Теперь к этому миксу можно смело добавить we-learning и возможность взаимодействия с почти любой формой формального обучения. Перед занятием люди собираются онлайн, чтобы обсудить свои цели. Во время занятия люди взаимодействуют друг с другом, чтобы делиться опытом, полученным от инструктора. После занятия создается сообщество практикующих, где люди также могут поделиться информацией о применении на практике полученного во время обучения. Варианты бесконечны.

5. We-Learning потребует изменения в культуре и лидерстве.


Я помню дни 1980-х и начала 1990-х, когда люди действительно боялись проводить много времени перед компьютером. За 10 лет развития e-learning мы поняли, что людям нужно дать время и место, чтобы учиться онлайн.

Аналогично нужно поступать и сейчас, нам необходимо дать людям поддержку, культуру, и мотивацию, чтобы вовлечь их в we-learning. Существует ли в вашей организации культура общего использования знаний? Поощряют ли экспертов за то, что они делятся своими лучшими практическими разработками? И что важнее всего, используете ли вы поощрительные меры и модели развития карьеры, которые сообщают экспертам «мы ожидаем, что Вы внесете свой вклад в коллективный банк знаний организации»?

Наше исследование выявило, что единственный мощный привод успеха в сегодняшнем современном мире L&D и e-learning – это культура. Не важно, как хорошо вы разработали программы, системы, и опыты – они «приживаются» только, когда сама компания ценит длительный фокус на организационном и индивидуальном обучении. Все большее количество управленцев высшего звена думают о том, «что я могу сделать, чтобы люди в этой организации как можно скорее начали делиться информацией, разговариваться с клиентами, и еще быстрее обучаться». Такие рассуждения приводят к дискуссиям о культуре обучения в организации – одному из ключевых приводов успеха в эту новую эру.

Итоги: Нам есть чему научиться.


Давайте примем мир we-learning с той же страстью и трепетом, которую мы испытывали к e-learning. Если мы будем помнить об уроках, полученных в прошлом, мы будем воспринимать эту новую эру корпоративного обучения как одно из самых важных и трансформационных изменений в нашей индустрии.



__________________________________________________________

На этом все, читайте нас в фейсбуке, телеграмме и вконтакте


пятница, 28 сентября 2018 г.

Какие социальные сети у нас наиболее популярны



Провел опрос в своем телеграмканале "В каких социальных сетях вы имеете аккаунты и заходите не реже одного раза в неделю". Поучаствовало более 300 респондентов.
Не знаю, как правильно презентировать результаты, буду просто показывать диаграммы.

Рейтинг популярности

Какие социальные сети у нас наиболее популярны

Цифра обозначает количество выборов

Среднее количество аккаунтов на человека

Какие социальные сети у нас наиболее популярны

В среднем на человека приходится 3, 23 сети

Какие сети самые одинокие 

Какие социальные сети у нас наиболее популярны
Эта диаграмма обозначает, что если человек сидит в фейсбуке, то всего у него примерно 2,5 аккаунта. А если он сидит в Пинтересте, то у него в среднем 4, 44 аккаунта

Граф сетей

Какие социальные сети у нас наиболее популярны


  1. Цвет и толщина круга показывают рейтинг сети, а рядом с названием сети - количество ваших голосов, отданных за эту сеть.
  2. Толщина линии означает, как часто выбирали эти две сети вместе. Цифра на линии показывает количество совместных выборов.
  3. Т.е. например фейсбук и линкедин выбирали вместе 115 раз, а фейсбук и Ютуб 106 раз


__________________________________________________________

На этом все, читайте нас в телеграмме и вконтакте





четверг, 27 сентября 2018 г.

LeaveOneOutEncoder: препроцессинг категориальных переменных в sklearn pipeline Python


В продолжение темы препроцессинга категориальных переменных в sklearn pipeline Python.
См. также пост Препроцессинг категориальных переменных в sklearn pipeline Python с LabelEncoder.
Т.е. предыдущий пост про технику препроцессинга на основе LabelEncoder, а в данном посте я покажу, как работаю с LeaveOneOutEncoder.
LeaveOneOutEncoder пожалуй самый необычный способ препроцессинга категориальных переменных.


LeaveOneOutEncoder считается очень удобным, когда у вас много (от нескольких десятков до нескольких сотен) уровней фактора, а также когда часть уровней фактора очень немногочисленны. В моей практике самый лучший пример - уровень зарплат по регионам. У нас 89 регионов в России, причем, львиная доля приходится на Москву, меньше на Санкт-Петербург, а потом уже на остальные регионы, а на некоторые приходится совсем единицы.

Пример

У нас есть такой датасет

df= pd.DataFrame({ 'y': [10,2,3,4,5,6,7,8], 'a': [np.nan, 'b','a', 'b','a', 'b','a', 'b' ],
                  'c': ['a', 'b','a', 'b','a', 'b','b', 'b' ]})
Где y - целевая переменная, которую мы предсказываем, а a, c - категориальные переменные, на основе которых мы прогнозируем y.
После препроцессинга по методу LeaveOneOutEncoder категориальные переменные принимают такой вид
 0 1
0 5.625 6.0
1 5.000 5.4
2 5.000 6.0
3 5.000 5.4
4 5.000 6.0
5 5.000 5.4
6 5.000 5.4
7 5.000 5.4
 
Вы еще не знакомы с техникой препроцессинга категориальных переменных по методу LeaveOneOutEncoder? После препроцессинга переменные становятся типа numeric, т.е. из категориальных превращаются в числовые.


LeaveOneOutEncoder - это среднее по каждому уровню фактора. Возьмем переменную c. Уровню переменной a соответствуют значения целевой переменной Y 10, 3 и 5. Среднее значение по ним равно (10+3+5)/3 = 6. Таким образом, в категориальной переменной с уровень a принимает значение 6.0. А если у нас уровень пропущен, т.е поле пустое, то оно принимает значение среднего по всем данным. В переменной a есть пропущенное значение (np.nan), после препроцессинга оно принимает значение 5.625. Оно получается как среднее значение по всем переменным: (10+2+3+4+5+6+7+8)/8=5.625.
Простой код препроцессинга
lb = df[['a', 'c']]
enc = LeaveOneOutEncoder()
encc = enc.fit(np.asarray(lb), df['y'])
enc_data = enc.transform(np.asarray(lb))
enc_data 
Обратите внимание,  в команде fit у нас участвует целевая переменная. И поэтому код для pipeline у нас будет немного отличаться от того, что мы делали, например, для LabelEncoder.

LeaveOneOutEncoder в в sklearn pipeline Python

загружаем необходимые пакеты
import pandas as pd
import numpy as np
from sklearn import preprocessing
import sklearn
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from category_encoders import  LeaveOneOutEncoder
from sklearn import linear_model
Toy датасет
 df= pd.DataFrame({ 'y': [10,2,3,4,5,6,7,8], 'a': [np.nan, 'b','a', 'b','a', 'b','a', 'b' ],
                  'c': ['a', 'b','a', 'b','a', 'b','b', 'b' ], 'b': [5,5,3,4,8,6,7,3],})
Я добавил еще переменную b только для того, чтобы показать, что мы можем брать в препроцессинг любое количество переменных. И декларируем формулу по выбору этим переменных
 
class MultiColumn():
    def __init__(self,columns = None):
        self.columns = columns # array of column names to encode

    def fit(self,X,y=None):
        return self
    def transform(self, X):                                                           
        return X[self.columns]
Теперь объект class для препроцессинга категориальных переменных с помощью LeaveOneOutEncoder.
lb = df[['a', 'c']]
class MyLEncoder(BaseEstimator, TransformerMixin):

    def transform(self, X, **fit_params):
        enc = LeaveOneOutEncoder()
        encc = enc.fit(np.asarray(lb), y)
        enc_data = encc.transform(np.asarray(X))

        return enc_data

    def fit_transform(self, X,y=None,  **fit_params):
        self.fit(X,y,  **fit_params)
        return self.transform(X)

    def fit(self, X, y, **fit_params):
        return self


На самом деле все просто. И выходим на pipeline
X = df[['a', 'b', 'c']]
y = df['y']

regressor = linear_model.SGDRegressor()

pipeline = Pipeline([
    ('union', FeatureUnion(
        transformer_list=[
             # categorical
            ('categorical', Pipeline([
                 ('selector', MultiColumn(columns=['a', 'c'])),
                ('one_hot', MyLEncoder())
                
            ])),
        
        ])),
    # Use a regression
    ('model_fitting', linear_model.SGDRegressor()),
])

pipeline.fit(X, y)
 
Делаем predict на нашем датасете.
 
pipeline.predict(X)
array([5.49996715, 4.92702859, 5.19722919, 4.92702859, 5.19722919,
       4.92702859, 4.92702859, 4.92702859])



Но в нашем случае нужно обязательно проверить, что препроцессинг категориальных переменных в sklearn pipeline Python с помощью LeaveOneOutEncoder работает на новом датасете.
Создаем его и проверяем.
 new= pd.DataFrame({ 'y': [3, 8], 'a': ['a', 'b' ],'c': ['b', 'a' ], 'b': [3, 6],})
pipeline.predict(new)
array([4.92702859, 5.19722919])
Работает. Буду рад критике и замечаниям.



среда, 26 сентября 2018 г.

Следующий вызов для Искусственного Интеллекта: понимание нюансов языка





Перевод статьи AI’s Next Great Challenge: Understanding the Nuances of Language с сайта Harvard Business Review  нашего  проекта переводы статей по hr-аналитике на английском.
Перевод выполнила Ольга Смирнова (по ссылке профиль на Линкедине - рекомендую френдиться с профи), у Ольги свое, очень интересно дело, она создатель сайтов и он-лайн школ, рекомендую http://smirnovaolga.tilda.ws/ ! Это уже восьмой перевод Ольги. Читайте также

  1. 10 метрик HR, которые вы можете, но, вероятно, еще не используете
  2. Лидеры в HR аналитике: непрерывное стремление Capital One к улучшению исследований в области HR
  3. Лидеры в HR аналитике: управление практическими исследованиями в Merck & Co
  4. Искусственный интеллект в HR: прорывное приложение
  5. Лидеры в HR аналитике: совместный подход к исследованиям в Microsoft
  6. Как удостовериться, что гибкие команды могут работать вместе
  7. Moneyball для бизнеса: как Искусственный Интеллект меняет управление талантами


Итак,

Следующий вызов для Искусственного Интеллекта: понимание нюансов языка

Язык - уникальная человеческая способность и воплощение нашего интеллекта. Но через ИИ - в частности, через обработку естественного языка (NLP) - мы предоставляем машинам языковую функциональность, открывая новую область возможностей того, как мы будем работать с ними.

Сегодня вы можете зайти в темную гостиную и попросить Алексу включить умный свет до приятной 75% -ной яркости. Или вы можете запросить информацию о погодных условиях на другом конце света. Прогресс, достигнутый в индустрии, был показан в недавней демо-версии Duplex от Google, в которой ИИ-агент созванивался с бизнесами и назначал встречи. То, что когда-то казалось научной фантастикой, теперь реальность, но для поддержания действительно высококлассных отношений человек-машина, машины должны быть способными к более интуитивным, контекстуальным и естественным разговорам – это все еще остается сложной задачей. Я строил свою карьеру, сосредотачиваясь на NLP, области исследований, почти такой же старой, как и сам ИИ, и мы все еще находимся на начальной стадии этого путешествия.

Язык - это механизм обмена информацией и связи с окружающими, но машины должны понимать тонкости языка и то, как мы, люди, общаемся, используя его. Успехи в анализе эмоциональной окраски, ответы на вопросы и совместное многозадачное обучение позволяют ИИ по-настоящему понимать людей и то, как мы общаемся.

Анализ эмоциональной окраски

Язык по своей сути труден. Он постоянно развивается, он сильно нюансирован, и среднестатистическому человеку требуются годы, чтобы достичь высокого уровня владения языком. С анализом эмоциональной окраски, мы можем использовать ИИ для понимания определенных вещей о некоем высказывании, например, упоминание бренда или обзор фильма является положительным, отрицательным или нейтральным. Но мы можем также разобраться в таких вещах, как отношение и намерения спикера (Она сердится? Счастлива? Удивлена? Готова купить?). От обслуживания клиентов до модерации онлайн-сообществ до алгоритмической торговли чрезвычайно важно, чтобы компании могли понимать общественное мнение по отношению к бренду, анализируя тысячи твитов или сотни обзоров продуктов мгновенно.

Анализ эмоциональной окраски уже используется некоторое время, но он не всегда был очень точным. Однако это меняется по мере достижений в NLP. В Salesforce, где я руковожу исследовательскими работами, наша услуга Einstein AI позволяет брендам получать в режиме реального времени анализ настроений в электронных сообщениях, социальных сетях и текстах чатов, чтобы обеспечить более эффективное обслуживание клиентов. Точный анализ эмоциональной окраски позволяет, например, обслуживающим агентам получить представление о том, каким недовольным клиентам нужно помочь в первую очередь или кому направить рекламные предложения. Также возможно выявить недостатки продукта, измерить общую удовлетворенность продуктом и даже промониторить восприятие бренда через каналы социальных сетей. Другие технические компании предлагают аналогичные услуги.

Нам также нужен контекст. Предположим, у вас есть мыльный бизнес и кто-то твитнул «Это мыло действительно хорошее для младенцев». Это можно рассматривать как позитивный отзыв о мыле для младенцев или язвительный комментарий, что это мыло ужасно для детей. В этом утверждении так много контекста, и это довольно простое высказывание! Обучение ИИ анализу всех возможных значений конструкции предложения и понимания того, что человек имеет в виду в данном контексте, является одной из важнейших задач в исследованиях NLP. Это требует как маркированных данных для улучшения модели обучения, так и новых моделей, которые могут изучать контекст и совместно использовать знания по многим различным задачам одновременно.

Ответы на вопросы

По мере того как NLP будет лучше распознавать значение текстов, интеллект цифровых ассистентов, помогающих управлять нашей жизнью, так же улучшится. Такие приложения, как Siri и Google Assistant, уже предоставляют довольно хорошие ответы на общие вопросы и выполняют довольно простые команды. В идеале, однако, мы должны иметь возможность задавать нашим компьютерам произвольные вопросы и получать хорошие ответы.

Один из способов дать лучшие ответы - убедиться, что компьютер понимает вопрос. Если вы спросите: «Когда прибудет мой самолет?», как компьютер узнает, говорите ли вы о своем рейсе или деревянной модели, которую вы заказали на Amazon? Компьютеры все лучше могут угадывать смысл через более глубокое понимание семантики, а также более разумное использование контекстуальных данных. В NLP мы выясняем, как преподать каждый из этих уровней контекста, чтобы ИИ мог обрабатывать все сразу и не пропускать важную информацию.

Например, динамические сети взаимодействия могут интерпретировать один документ по-разному в зависимости от того, какие вопросы задавали сети - «Какая команда представляла NFC в Super Bowl 50?» Или «Кто сделал тачдаун в четвертой четверти?» С помощью этой условной интерпретации она может затем итеративно выдвигать гипотезу о нескольких ответах, чтобы достичь наилучшего, наиболее точного результата.

Совместное многозадачное обучение

Научное сообщество умеет создавать модели ИИ, которые выполняют одну задачу очень хорошо. Но более интуитивные, диалоговые и контекстные интерфейсы потребуют модель ИИ, которая постоянно учится, интегрируя новые задачи со старыми и обучаясь выполнению все более сложных задач. Это относится к ИИ в целом, но в особенности важно, когда речь заходит о языке, что требует гибкости.

Вопрос «Кто мои заказчики?» представляет собой достаточно простую задачу: создать список заказчиков. Но как насчет вопроса «Кто мои лучшие заказчики на Тихоокеанском Северо-Западе для конкретного продукта?» Теперь мы добавили уровень сложности, который требует целого ряда интегрированных задач для ответа на квалифицирующие вопросы, такие как: Как определить кто «лучший»? Где находится каждый заказчик? Какие факторы способствуют тому, чтобы один заказчик интересовался одним продуктом по сравнению с другим? Добавляя один элемент к запросу, сложность вопроса резко возрастает.

Salesforce Research недавно создала Natural Language Decathlon, программу, которая позволяет объединить решение 10 самых сложных задач NLP в одной модели:

  1. ответы на вопросы, 
  2. машинный перевод, 
  3. обобщение, 
  4. формирование рассуждений на естественном языке, 
  5. анализ эмоциональной окраски, 
  6. присвоение семантических ролей, 
  7. извлечение отношений, 
  8. целенаправленный диалог, 
  9. генерация запросов в базе данных 
  10. определение к какому субъекту относится местоимение. 

Используя многозадачную модель ответ-вопрос, которая ставит каждую задачу в качестве ответа на вопрос, единая модель совместно изучает и обрабатывает различные задачи без каких-либо конкретных параметров или модулей. Это означает не только то, что специалистам по обработке данных больше не нужно создавать, обучать и оптимизировать отдельные модели для каждой задачи, но это также означает, что модель будет иметь возможности обучения с нуля - другими словами, модель может решать задачи, которые не видела раньше или которым не была специально обучена.

Поскольку исследователи продолжают улучшать модели, подобные этой, мы видим, что интерфейсы ИИ становятся более умными, поскольку они решают более сложные задачи.

Хотя мы долго работаем над NLP, мы все еще в самом начале. Однако надежда состоит в том, что совершенствование NLP позволит ИИ изменить то, как мы взаимодействуем с нашими машинами.


Высокая стоимость текучести персонала



Перевод статьи The high cost of employee turnover в рамках нашего  проекта переводы статей по hr-аналитике на английском. Автор Sean Preusse.
Перевод выполнила Светлана Дзюбенко (профиль в фейсбуке), HR из Одессы, работает более 15 лет директором по персоналу в коммерческих компаниях, в сферах оптовой торговли В2В,В2С, производства, транспортных услуг. Это четвертый перевод Светланы, смотрите также

  1. Unilever нанимает сотрудников, используя интеллектуальные игры и искусственный интеллект, - и это стало огромным успехом - самая популярная статья 2018;
  2. Для удержания новых сотрудников, встречайтесь с ними в их первую неделю работы
  3. Опросы сотрудников - по-прежнему один из лучших инструментов измерения вовлеченности


Итак,
Высокая стоимость текучести персонала

Высокая стоимость текучести персонала

Еще никогда не было так легко для сотрудников находить новые рабочие места. Интернет совершил революцию в том, как мы ищем работу, и это облегчило рекрутерам общение с будущими сотрудниками в любой точке мира.
При этом, стоимость замены может быть высокой и включать как прямую, так и косвенную стоимость замены. Ниже диаграмма показывает временной лаг, необходимый для получения пользы от нового найма с течением времени.
Высокая стоимость текучести персонала



Для некоторых функций достижение полной производительности может занять два года.
Поскольку организации должны смотреть на автоматизацию, навыки, необходимые для рабочей силы, становятся все более специализированными и востребованными. В зависимости от сложности функции, может потребоваться два года для того, чтобы работник достиг 100% продуктивности по сравнению с тремя месяцами для задач, ориентированных на функцию.
Добровольная текучесть обойдется многим организациям в миллионы долларов

Высокая стоимость текучести персонала


На поверхности некоторые из этих затрат будут очевидны и включают прямые затраты, такие как набор, адаптация, обучение.
Затраты, которые не так заметны, включают в себя потерю производительности, влияния и связей, поскольку некоторым из них может потребоваться определенный уровень мастерства для того, чтобы работник был полностью продуктивным.

Понимание драйверов для улучшения результатов бизнеса.

Высокая стоимость текучести персонала

Что если бы могли управлять 1% улучшения стоимости замещения в рамках целого ряда инициатив с использованием подхода, основанного на данных? Эта возможность может представлять собой материал, который может быть использован для построения бизнес-кейса или переориентации существующих программ на решение этой проблемы.
Сокращение на 1% до 0% может показаться низким, но может представлять большую ценность для организации, т. е. в зависимости от размера организации, скажем 2500, а годовая выгода может составить $ 2,8 млн.
Это деньги, которые можно потратить на другие инициативы, такие как улучшение культуры, вовлеченность и производительность, а также создание инструмента  для понимания проблем сотрудников до их возникновения.

Создание надежного бизнес-кейса вокруг цифр

Начать управление на основе цифр легко. Начните с полного выделения их за последние 12 месяцев. Рассчитайте коэффициент текучести по сравнению со средней численностью за тот же период, а затем рассчитайте стоимость замещения.
Затраты на замещение могут быть рассчитаны по должностям или группе зарплат. Для обоих вам потребуется сопоставить процентную производительность в течение заданного периода, охватывающего весь период или квартальные блоки. Чем проще модель, тем легче объяснить. С помощью этой информации вычислите обратную «потерянную производительность» и умножьте ее на зарплату за период.
Высокая стоимость текучести персонала

Переход к реальной возможности

Общая стоимость расходов на замену специалиста может показаться страшной или огромной возможностью. Эту цифру необходимо держать в поле зрения. Люди, естественно, будут покидать организацию по широкому спектру факторов, некоторые из которых вы не будете контролировать. Вам нужно будет вычислить скрытые факторы и понять, что вы можете контролировать изнутри с помощью целого ряда действий.
Чтобы помочь в этом целенаправленном анализе, вы можете захотеть измерить показатели текучести по должностям. Это может показать вам недостатки, которые обусловлены плохой практикой руководства, культуры или управления, что может быть улучшено внутри компании.
Красным цветом обведены должности, которые вы считаете соответствующими, и вы в состоянии определить возможность улучшения текучести на 1%, которая может быть использована для финансирования инициатив или дальнейшего анализа.

Высокая стоимость текучести персонала

Другое направление анализа может включать область возможностей. Это может быть немного сложнее понять, поскольку сотрудники могут иметь несколько возможностей, но и могут выступать в качестве важной призмы, чтобы построить прочную основу на краткий период и позволит проводить более целенаправленные действия по сокращению текучести.
Высокая стоимость текучести персонала

В общем и целом:

  1. Во-первых, понять временной лаг выхода на прибыль для компании за 12-месячный период и сегментировать этот лаг в 3-4 группы сложности.
  2. Вычисление показателей текучести  по должностым для понимания того, что можно контролировать.
  3. Моделирование может быть выполнено в Excel, без сложного программного обеспечения.
  4. Определить диапазон действий и сегментировать людей в контрольно-испытательной группе, чтобы помочь понять эффект от программы.
  5. Прохождение более глубокого анализа опроса, оплаты, мобильности, лидерства и переменных жизненного цикла, а также сотрудников перешедших в группу высокого риска или повышая общую удовлетворенность сотрудников, приведут компанию к успеху.

__________________________________________________________

На этом все, читайте нас в телеграмме и вконтакте




воскресенье, 23 сентября 2018 г.

Метрики обучения и бизнес-результаты




Летом этого года я переводила статью наших западных коллег "Что такое HR-dashboard и HR-отчет? Примеры, визуализации и советы как это сделать." В статье много упоминаний про наши hr-метрики, но когда я решилась на перевод этой статьи для меня главным стало то, что они использовали для своих целей Power BI.
В тот момент времени, да и сейчас тоже, я активно занималась/юсь внедрением HR отчетности/дашбордов в нашей компании (отчетность это не единственное направление, в котором HR в моей компании использует данные, но сейчас пока не об этом). Как один из вариантов реализации мы пробуем использовать для этого Power BI. Этот инструмент ранее никогда не рассматривался нами как целевое решение для hr-отчетности. В самом начале я использовала этот продукт от Microsoft скорее для себя - уж очень удобно, быстро и в чем-то красиво в нем можно обрабатывать данные (в том числе с использованием кодов на R, а с августа этого года на python 😊 ). Я много лет использовала в работе надстройку Power Pivot и Power Query для excel + R-studio для статистического анализа данных, поэтому для меня переход на новый продукт занял буквально пару дней. Несколько раз я показывала своим коллегам результаты со своего ноутбука - на бесплатной desktop-ной версии от MicroSoft. За очень короткое время стало понятно, что с этим инструментом можно сделать многое.
После перевода западной статьи в телеграмм-канале был проведен опрос - а какие дашборды вам интересно было бы посмотреть. И лидером стал вариант "Обучение и связь с бизнес-результатами". Ниже простой пример




Коротко о картинке выше. Это данные по выполнению планов продаж и обучению (что когда и с кем было пройдено) в разрезе каждого сотрудника согласно выбранным фильтрам. Хочу отметить следующее:

  1. Можно не тратить место на дашборде на легенду, а добавить ее в виде всплывающей подсказки. Например так:
  2. Аналогичным образом можно добавить любую информацию сразу сюда - в виде всплывающих подсказок. Ведь часто конечному пользователю неудобно переключаться между разными отчетами, чтобы получить дополнительную информацию.
  3. Отчет полностью интерактивный - выбор одного элемента приводит к автоматической фильтрации всего остального. Хотя тут хочу отметить - такое поведение регулируемое и зависит от ваших требований и знаний того, кто это реализует.


Мы сейчас в процессе разработки, но итоговое решение уже понятно. Многое испробовано, что-то отвергнуто, но что-то оказалось интересным и сейчас будет тиражироваться на многих. Не утверждаю в настоящий момент, что в тираж пойдет именно решение на Power BI (особенности компании), но утверждаю одно - именно с помощью этого инструмента мы смогли очень быстро создать что-то, что уже имеет минимальную ценность для клиента - мы посмотрели на все это вместе - на обучение и на наши самые важные KPI.
Для создания единых дашбордов, а уж тем более для аналитических исследований, одним из самых важных шагов было и будет корректно увязывать ваши программы обучения и данные бизнеса и/или финансов (например все те же KPI). Тут по идее должно быть понятно, если мы учим человека продавать, то связывать этот вид обучения с, например, количеством ошибок при заведении данных более чем странно. Тут как раз хочется сказать об интегральных KPI, если они единственное, что оказалось в вашем распоряжении. Если они учитывают результаты нескольких разных "активностей" с определенными весами, то возможно у вас будут трудности с поиском явных взаимосвязей.
Помимо достаточно популярных и известных бизнесовых данных можно использовать и другие данные в вашей компании. Например, если вы учите сотрудников пользоваться определенным ПО, то можно поискать связь между этими курсами и, например, обращениями на help desk с вопросами по этому же ПО. И конечно, в случае управленческого обучения грех не воспользоваться нашими родными источниками информации - текучестью по собственному желанию, оценкой 360, опросами по вовлеченности и т.д. и т.п.

Напоследок решила перенять у западных коллег одну вещь и привести тут список метрик по обучению из моей коллекции. Естественно, я не претендую на то, что этот список полный и единственно верный, просто когда мне что-нибудь кажется потенциально полезным, я это складываю в свой файлик. Из серии будем жениться - все пригодиться :-) И может он будет полезным кому-то еще. Понятно, что считать все эти метрики абсолютно не стоит и лучше выбрать только самые нужные в этот момент для вашей компании. Но полезно ваш список используемых показателей иногда  пересматривать. Правда еще раз напоминаю, что есть нюанс - если ваши обучающие программы и задачи бизнеса никак не увязаны между собой, то вы никогда не увидите это, только используя метрики, как бы интересно они не выглядели. Хоть как их препарируйте - смотрите в целом, в динамике, в разрезе подразделений и может даже людей - пользы мало, затраченных на их расчет усилий много.

Метрики, применимые как для очного , так и on-line обучения
количество заявок на обучение
уникальное количество сотрудников, фактически прошедших обучение
общее количество сотрудников,  фактически прошедших обучение
доля сотрудников, закончивших обучение, от общего количества поданных заявок
доля обученных от ССЧ
Дополнительно для очного обучения
общее число тренинговых часов в аудитории
среднее время тренинговых часов на сотрудника
доля времени на обучение от общего фонда рабочего времени
Дополнительно для on - line курсов
воронка прохождения по модулям курса
среднее время, потраченное на завершение курса
количество активных (не законченных) курсов
Стоимость
общие расходы на обучение
отклонение фактических расходов на обучение от плановых
средняя стоимость обучения 1-го сотрудника
средняя стоимость тренингового часа
количество запросов на компенсацию обучения
Learning Experience
средняя оценка качества обучающих материалов
средняя оценка соответствия программы ожиданиям
средняя оценка преподавателя
Оценка эффективности (частично, пока без бизнес-показателей)
доля сдаших тест по итогам обучения
изменение среднего балла теста до обучения и после
среднее время прохождения теста
Преподаватель
доля времени на полевое сопровождение от фактически отработанного им времени
доля очных тренинговых часов от фактически отработанного им времени
среднее количество участников на 1-го преподавателя в месяц
Программы
общее количество новых программ
общее количество обучающих on-line программ
общее количество обучающих очных программ
среднее время разработки и запуска новой программы
Аудитория
доля заполнения аудиторий в учебных центрах (% занятых мест от максимально возможного количества)
доля времени, когда аудитории в учебных центрах не использовались вообще, от максимально возможного времени их использования
Развитие карьеры
доля сотрудников с индивидуальными планами
Общее (сложно отнести к какой-то одной категории выше)
соотношение on-line обучения и очного обучения
общий фонд рабочего времени обученных сотрудников
общий фонд рабочего времени ВСЕХ сотрудников

Отчетность и дашборды это только начало использования данных в вашей компании. Согласна с авторами статьи, которую переводила летом - реальная ценность извлекается с помощью иных инструментов (например все те же R и python) и других знаний (мат. статистика, машинное обучение). И что мне как раз очень понравилось в Power BI - это возможность использовать R и, естественно, знания! Мой коллега недавно опубликовал пост, где как раз на одном примере показал, как это работает
Компетенции. Кластеризация. Подход №1 (Технический) – как это сделать с помощью R & Power BI.

И напоследок хочется отметить одно правило - не бывает универсальных дашбордов и/или отчетов. Не пытайтесь запихнуть все в одно и показывать пользователям разного уровня принятия решений одну, пусть и супер красивую картинку. Не прокатит 😊

P. S. Ищу человека в нашу команду!!! Команда маленькая, но уже успела отметиться на многих фронтах. Если вы готовы обучаться и использовать все выше перечисленное на практике - сигнализируйте. Я не всегда оперативно отвечаю на свою почту (lu2_rogova@mail.ru), но Эдуард согласился помочь. Все резюме будут точно прочитаны тут edvb@yandex.ru. Новые скилы, опыт и драйв от работы гарантирую. Спасибо Эдуарду за помощь!