Share |

среда, 18 апреля 2018 г.

Портрет HR-директора (результаты опроса)



В течение весны и до конца июля 2012 года портал HRM проводил исследование, призванное выявить портрет HR-директора. Именно портрет – он включает себя помимо модели компетенций такие показатели как пол, возраст, количество подчиненных, размер компании.
Поскольку сайт HRM умер, то хотелось бы сохранить интересные результаты.

Портрет HR-директора

В течение весны и до конца июля 2012 года портал HRM проводил исследование, призванное выявить портрет HR-директора. Именно портрет – он включает себя помимо модели компетенций такие показатели как пол, возраст, количество подчиненных, размер компании. Напомню также, что в прошлом году мы проводили опрос Модель компетенций HR-директора – сравнение с его результатами ниже.

Задумка была выявить некий усредненный портрет HR-директора, так и сделать несколько срезов: по полу, возрасту, размеру компании с тем, чтобы выявить возможные различия.

Описание опроса


В исследовании были включены следующие вопросы
  1. Является ли респондент HR директором или нет
  2. Пол hr – директора компании (не респондента, поскольку респондент не обязательно является этим директором)
  3. Возраст hr – директора
  4. Модель компетенций

В качестве "шаблона" для опроса использовали обобщенную модель компетенций менеджеров из книги Спенсеров Компетенции at Work (она уже использовалась нами в опросах о модели компетенции HR-директора). Предложите лучший вариант – буду пользоваться им.

Вопрос звучал так: Выделите, пожалуйста, несколько наиболее присущих компетенций HR-директору Вашей компании, как это представляется вам.

  1. Воздействие и оказание влияния
  2. Ориентация на достижение
  3. Командная работа и сотрудничество
  4. Аналитическое мышление
  5. Инициатива
  6. Развитие других
  7. Уверенность в себе
  8. Директивность/Настойчивость
  9. Поиск информации
  10. Командное лидерство
  11. Концептуальное мышление
  12. Понимание компании
  13. Построение отношений
  14. Межличностное понимание

а также 
  1. Количество подчиненных HR директора
  2. Размер компании (количество работающих)
  3. Отрасль компании
  4. Страна расположения офиса компании

Описание аудитории опроса

Всего в исследовании приняло участие 355 респондентов. Из них указали, что являются HR-директором – 211 человек, 140 – не являются.

Размер компании

Таблица 1. Распределение респондентов по размеру компании (вторая колонка, кол-во, третья - %)


1-24
12
3,4
25-99
50
14,3
100-999
174
49,7
1000 - 5 000
86
24,6
более 5 000
28
8
Диаграмма 1. Распределение респондентов по размеру компании
Портрет HR-директора (результаты опроса)
Таблица 2. Распределение респондентов по отрасли
Отрасль
Кол-во
%
Банки/Страхование
42
12,0
Государственные организации
5
1,4
Добыча сырья/Энергетика
20
5,7
Индустрия красоты
1
0,3
Искусство/Масс-медиа
5
1,4
ИТ/Телеком
42
12,0
Консалтинговые компании
23
6,6
Мед./Фарм бизнес
20
5,7
Некоммерческие организации
0
0,0
Оптовая торговля
33
9,5
Производство
56
16,0
Ритейл
36
10,3
Строительство/Недвижимость
19
5,4
Транспорт/Логистика
11
3,2
Туризм/Отели/Общепит
12
3,4
другое
24
6,9


Диаграмма 2. 2. Распределение респондентов по отрасли

Портрет HR-директора (результаты опроса)

Портрет HR-директора



О самом вкусном.

Анализ социальных медиа на Python

Анализ социальных медиа на Python
Анализ социальных медиа на Python - новая книга от издательства ДМК-ПРЕСС.
Оригинальное название:
"Mastering Social Media Mining with Python"
Оригинальный правообладатель:
Packt Publishing
Автор: Бонцианини Марко.
Книги в тему.
Сразу хочу дать ссылки на книги схожей тематики

  1. Сбор данных в Интернете на языке R - наш российский автор. Про тоже самое, только на языке R
  2. Скрапинг веб-сайтов

Аннотация

Язык программирования Python является оптимальным выбором для исследователей-аналитиков, поскольку позволяет создавать прототипы, визуализировать и анализировать наборы данных малого и среднего размера. Бесчисленное количество предприятий обращается к Python для решения задач, связанных с выявлением особенностей поведения потребителей и превращением исходных данных в действенную информацию о клиентах. Настоящая книга рассказывает, как с помощью научного инструментария Python получать и анализировать данные из наиболее популярных сетей, таких как Facebook, Twitter, Stack Exchange и др. В русскоязычное издание добавлено приложение об анализе данных из сети «ВКонтакте».
Издание предназначено для специалистов по анализу данных, а также будет полезно всем разработчикам на Python, желающим извлекать коммерческую пользу из социальных сетей.
Покажу два варианта возможного анализа данных социальных сетей (в книге их больше):
В какое время лучше размещать посты на странице facebook, чтобы получать больше лайков;
HR аналитика: самые популярные и самые непопулярные темы.

  1. Заказать книгу на сайте ДМК-ПРЕСС- Анализ социальных медиа на Python;
  2. Заказать Анализ социальных медиа на Python  на Озоне.

Рекомендую издательство ДМК-ПРЕСС - как лучшее по изданию книг по анализу данных.




воскресенье, 8 апреля 2018 г.

Пять часто задаваемых вопросов об Организационном сетевом анализе (ONA)



Перевод статьи Answering 5 frequently asked questions about Organisational Network Analysis нашего  проекта переводы статей по hr-аналитике на английском. Автор статьи Chloé Meredith, у нас впервые, попала потому, что ее статья попала в топ популярных статей по HR аналитики от Давида Грина.
Перевод выполнила Ольга Хайдарова - HR project-manager компании "Этажи", г. Тюмень. Это седьмой перевод Ольги, см. также
  1. Кейс: применение Анализа Организационных Сетей (ONA) для выявления скрытых “звёзд”, которые помогут повысить доход;
  2. Браслеты Amazon могут отследить движения руки сотрудников: “Работодатели всё чаще обращаются с персоналом, как с роботами”
  3. Опыт применения чатбота в рекрутинге: год вместе;
  4. 86% руководителей не видят пользы в Аналитике – почему так?;
  5. Успех в аналитике требует правильного мышления;
  6. Улучшаем командную производительность с Анализом организационных сетей (ONA);
  7. Перегруженная организация.


Также Ольга выполняет самостоятельные проекты по аналитике, см. пост Ольги

  1. Анализ дожития специалистов по продаже недвижимости;
  2. Анализ коммуникаций коллектива в рабочем чате Telegram

- работодатели, обращаю ваше внимание, рекомендую специалиста.
Итак,
Пять часто задаваемых вопросов об Организационном сетевом анализе (ONA)

Пять часто задаваемых вопросов об Организационном сетевом анализе (ONA)


Хлоя Мередит, PhD
Консультант в области People Analytics в  iNostix by Deloitte - эксперт по предиктивной HR-аналитике

В 2017 году в рамках исследования Deloitte "Глобальные тренды в сфере человеческого капитала" было отмечено, что использование Организационного сетевого анализа (ONA) будет расти в геометрической прогрессии. 48% респондентов даже отметили, что они экспериментировали с инструментами ONA. Однако, только 9% понимают, как работают их внутренние организационные сети. Количество статей и инструментов, посвященных ONA непрерывно множится, вместе с вопросами, которые возникают у практиков и клиентов. Я заметила, что эти вопросы часто удивительно похожи по своей сути. Эта статья содержит 5 часто задаваемых вопросы и мое видение ответа на каждый из них.

Зачем мне применять ONA  в моем проекте или организации? 

четверг, 5 апреля 2018 г.

Насколько чаще в facebook лайкают пост с наличием фото / картинки


У меня уже целая серия родилась постов, это третий по счету. Напомню: я скачал более 1 000 постов в своей странице HR-аналитики фейсбук (рекомендую вам подписаться на страницу) и проанализировал, какие параметры постов связаны с лайками. Два предыдущих поста:

  1. HR аналитика: самые популярные и самые непопулярные темы
  2. В какое время лучше размещать посты на странице facebook, чтобы получать больше лайков

Т.е. я уже посмотрел связь, между тем, про что я делаю посты и количеством лайков, и между тем, когда я делаю посты и количеством лайков.
Теперь посмотрим связь между наличием фото и количеством лайков.

Вводная

Я запостил в своем телеграм канале голосование:
Короткий маркетинговый опрос.
Как Вы считаете, наличие прикрепленного фото у поста в фейсбуке увеличивает количество лайков данного поста?
да
нет
Через 10 минут поучаствовало 23 человека, результаты были 20:3 в пользу варианта ответа "да".
Но я сам бы проголосовал в пользу варианта "да".

Результаты

Я так подозреваю, что для страницы HR-аналитики закон не писан.

Boxplot

Насколько чаще в facebook лайкают пост  с наличием фото

Как читать диаграмму boxplot (ящик с усами) - для тех, кто не умеет читать данный тип диаграммы.

среда, 4 апреля 2018 г.

Наиболее важные направления / термины в работе HR-аналитика



Результаты опроса в нашем телеграм канале
Наиболее важные направления / термины в работе HR-аналитика
Коллеги, запускаю еще один очень важный вопрос. Прошу выбрать не более трех вариантов терминов,которые, на ваш взгляд, определяют содержание работы HR-аналитика.
Все термины даются в алфавитном порядке (я сразу даю количество выборов)
  • Excel 8
  • HR-метрики 31
  • KPI 8
  • ROI 4
  • Rstudio 1
  • SWOT 4
  • Автоматизация 4
  • Бенчмарк 1
  • Вовлеченоость 7
  • Гипотеза 6
  • Дашборд 4
  • Драйвер 1
  • Компетенции 2
  • Корреляция 11
  • Машинное обучение 7
  • Метрики качества модели (R^2, RMSE, Accuracy etc) 12
  • Опрос 1
  • Отчетность 4
  • Препроцессинг данных 3
  • Прогнозное моделирование 29
  • Сбор данных 9
  • Сбор отчетности 1
  • Сводная таблица 1
  • Статистика 12
  • Тестирование персонала 8

Вводная

Сама идея опроса взята из схем Джоша Берзина.
Наиболее важные направления / термины в работе HR-аналитика
или, что про тоже - четырехуровневая модель HR-аналитики.

Поэтому термины опроса выбирались исходя в первую очередь из представленных схем, а сам опрос - попытка понять, где на этой сетке находится сейчас HR-аналитика в России..

В какое время лучше размещать посты на странице facebook, чтобы получать больше лайков



Это пост далеко не только для SMM-щиков, но и для коллег HR - тех, кто занимается продвижением HR-бренда, внутренними коммуникациями и т.п.. В данном случае, говоря о получении лайков к размещенному посту, я подразумеваю повышение вовлеченности персонала - больше лайков - выше вовлеченность персонала. И эта такая вовлеченность персонала, которую можно реально измерить.

Метод анализа 

Я скачал более 1 000 постов своей страницы HR-аналитки в facebook (кстати говоря, присоединяемся и читаем интересные посты) и получил данные с такими переменными:
  1. время публикации поста;
  2. текст сообщения (поста);
  3. количество лайков.

Связь темы сообщения и количества лайков я уже показывал ранее - HR аналитика: самые популярные и самые непопулярные темы. Время публикации поста дается в таком формате:

0    2018-03-31 12:30:55
1    2018-03-30 09:44:29
2    2018-03-30 07:13:16
3    2018-03-30 06:16:07
4    2018-03-29 16:54:43
5    2018-03-29 06:34:52
На основе этой формы мы можем создать несколько новых переменных:
  • Час размещения;
  • Время суток (утро, день...);
  • День недели (понедельник, вторник....);
  • Месяц;
  • Квартал.

Результаты.


Далее я просто покажу несколько картинок.

Квартал

В какое время лучше размещать посты на странице facebook, чтобы получать больше лайков

Для тех, кто не знает - на картинке тип диаграммы boxplot - см. Как читать диаграмму boxplot (ящик с усами).

  • Каждый боксплот обозначает квартал;
  • По оси Y - распределение количества лайков, полученных постами в том или ином квартале.

Заметно, что третий квартал проседает. Сезон отпусков?
Крускал Уолисс pvalue=1.4435092353241355e-06

День недели

В какое время лучше размещать посты на странице facebook, чтобы получать больше лайков

Здесь заметно проседание субботы, но pvalue=0.13579021820939902, поэтому мы мало можем выжать из этой диаграммы.

воскресенье, 1 апреля 2018 г.

HR аналитика: самые популярные и самые непопулярные темы



Небольшое маркетинговое исследование: я скачал все посты нашей страницы Блога по HR аналитике (присоединяйтесь к нам, если еще не) до середины 2016 года (более 1 000 постов) и посмотрел, посты с какой тематикой чаще лайкаются читателями. Спецы понимают, что речь идет об анализе тональности текста / сентимент анализе.
Пожалуюсь немного: весь пост - три картинки, а труда вбухано немало. Замечу также, что сила аналитики как раз не в 40 страницах отчетов, а в нескольких картинках и фразах.

Описательные статистики 

Общее распределение лайков постов носит такой характер
HR аналитика: самые популярные и самые непопулярные темы
Не очень нас балует публика лайками, да, признаю. Тем более интересно, что вызывает наиболее активную реакцию на лайки.

Самые популярные темы

HR аналитика: самые популярные и самые непопулярные темы
На диаграмме показаны слова и выражения, которые связаны с максимальным

Функционал читателей телеграм канала HR-аналитики (результаты опроса)



Провел на прошлой неделе опрос в телеграм канале HR-аналитики.
Коллеги, хочу узнать, какой функционал HR представлен у нас в канале. Прошу выбрать до трех вариантов функционала, который вы исполняете сейчас / исполняли на последнем месте работы (если в поиске работы). Перечень пунктов функционала составлен таким образом, чтобы максимально охватить все стороны деятельности HR, но не имеет никакой структуры – просто максимальное число вариантов функционала. Варианты функционала даются в алфавитном порядке (!!!) и не преследуют цели выделить одни варианты в угоду другим. 
Варианты выбора такие (сразу даю результаты - слева в скобках):

  • (21) HR-автоматизация
  • (29) HR-аналитика
  • (16) HR-бренд
  • (30) Адаптация
  • (5) Аттестация
  • (13) Бюджетирование
  • (14) Внутренние коммуникации
  • (16) Кадровый резерв
  • (6) Карьерное планирование
  • (13) КДП
  • (20) Компенсации и льготы
  • (18) Корпоративная культура
  • (12) Мотивация
  • (22) Организация обучения
  • (2) Охрана труда
  • (28) Оценка персонала
  • (13) Проведение обучения (тренер)
  • (65) Рекрутинг
  • (14) Управление талантами
  • (25) Управление текучестью персонала
  • (35) Управление функцией HR - HR директор, руководитель
  • (13) Управление эффективностью (Performance management)
  • (17) Штатное расписание

Диаграмма 

суббота, 31 марта 2018 г.

Индивидуальные факторы успешности: применение пакета LIME для задач регрессии в R



Напомню, что пакет LIME появился в ответ на проблему "черного ящика" машинного обучения: предиктивная модель показывает прогноз (сколько кандидат будет продавать, будет он успешным или нет, насколько у него серьезные риски увольнения или нет), но модель не отвечает на вопрос о том, какое именно качество кандидата "западает". Речь идет о непараметрических моделях, в параметрических есть коэффициенты, поэтому если мы стандартизуем признаки, то можем понимать вес переменных, см. подробнее Интерпретабельность HR-аналитики, пост не про это.
См. также с тему Про деструкторы в отношениях с руководителем. И о том, как правильно их измерять
Итого, LIME позволяет ответить на вопрос про конкретного кандидата, какие качестве его "вытаскивают", какие "западают".
Цель поста - показать, как LIME работает на задачах классификации, а нам бы хотелось использовать LIME для задач регрессии, дожития, кластеризации.....

Ну и так. 

Я показываю решение на основе датасета case1 первого пакета по HR аналитике в R. Как установить, см. Пакет R HR analytics для HR аналитиков. Используем датасет "case1". Понятно, что кейс игрушечный, но достаточный для того, чтобы вы умели применять его на своих данных.

Описание данных

У нас есть информация о 81 сотруднике компании: информация при приеме - уровень IQ, измеряемый с помощью теста, наличие аналогичного опыта на предыдущем месте работы, образование. И спустя время после начала работы мы измеряем уровень продаж.
Задача - на основе данных о кандидате на входе в компанию спрогнозировать продажи.
Поскольку у нас цель поста показать пакет LIME для задачи регрессии, я не буду вникать в особенности задачи прогноза, просто скажу, что у нас есть две значимые переменные для прогноза - IQ и E (наличие релевантного опыта работы).

Решение

Необходимые пакеты

library(lime)
library(HRanalytics)
data("case1")

и отбираем необходимые переменные
df = case1[, c('Продажи', 'IQ', 'E')]
Далее я переменную E - опыт - делаю факторной только для того, чтобы показать, что факторные переменные также работают в модели.
df$E = as.factor(df$E)
И модель. Напоминаю, что я делаю совсем простую модель, поскольку цель в другом.
model = lm(Продажи ~ IQ + E, df)
Переходим к пакету LIME. Первое, что нам нужно, определить тип модели, выясняем его так.
class(model)
[1] "lm"
И создаем тип модели
model_type.lm = function(x, ...) {
    return("regression")
}

Т.е. мы говорим LIME, что мы в типе модели 'lm' будем использовать регрессию.
Следующая формула нужна, чтобы показать, какой тип переменной прогноза желаем используем (числовая в отличие от вероятности для классификации).
predict_model.lm = function(x, newdata, type, ...) {
   pred = predict(x, newdata, type ='response')
    return(as.data.frame(pred))
  }
Собственно ради двух вышеуказанных форму и нужен был пост:). Но поскольку я в интернете не встретил полного описания, то сделал сам.
Далее мы тренируем эхплейнер - то, что в LIME отвечает за индивидуальные прогнозы
explainer = lime(df[, c( 'IQ', 'E')], model)
Обратите внимание, я указываю эксплейнеру конкретные переменные датасета. Задаем новые данные - я показываю двух новых кандидатов.
newd = data.frame(IQ=c(99, 37),  E=c('1', '0'))
Как видите, у одного высокий интеллект и наличие опыта работы, у другого низкий интеллект и отсутствие опыта работы. И запускаем эхплейнер на новых данных.
explanation = explain(newd, explainer, n_features = 2 )
Думаю, что с помощью ?explain вы сможете прочитать, что здесь что обозначает. Получаем вот такой вывод
head(explanation)
model_type case model_r2 model_intercept model_prediction feature feature_value feature_weight   feature_desc
1 regression    1 0.276435        79.85067         93.79742      IQ            99       5.499671 97 < IQ <= 102
2 regression    1 0.276435        79.85067         93.79742       E             2       8.447084          E = 1
3 regression    2 0.726847        92.15528         70.59510      IQ            37     -13.919076       IQ <= 91
4 regression    2 0.726847        92.15528         70.59510       E             1      -7.641104          E = 0
   data prediction
1 99, 2   93.56856
2 99, 2   93.56856
3 37, 1   30.02060
4 37, 1   30.02060
И самое вкусное, что надо показывать Заказчику
plot_features(explanation, ncol = 1)

Картинка

Здесь интуитивно понятная картинка:

  • каждая диаграмма для каждого кандидата;
  • переменные по каждому кандидату (попутно замечу, что высота столбика говорит о весе фактора);
  • зеленый цвет означает, что качество кандидата позволяет ему показывать более высокие результаты, красное - это наоборот - "западение".




__________________________________________________________
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте

пятница, 30 марта 2018 г.

Эволюция HR-аналитки



Не получилось у меня прорывов в этом посте, покажу вам саму идею.
Под прорывом я ожидал более физически осмысленных результатов.
Пост я назвал Эволюцией потому, что хотел показать, как математика помогает в рефлексии - позволяет систематизировать прошлые знания, понять траектории развития. И рефлексия тоже поддается математике....

Логика поста

Я скачал все свои посты в блоге - см. Как скачивать / парсить тексты постов блога blogspot, потом я проделываю кластеризацию, т.е. выделяю ключевые типы тем блога. а потом я показываю это в динамике - то, как эти темы меняются по времени.
Как мне кажется, эту технику можно использовать в корпоративной системе управления знаниями (если мы скачаем всю базу корпоративных знаний), корпоративном обучении и т.п...
Проблема в том, что кластеры не те, что нам хотелось бы получить:)

Решение

вот такие кластеры я получил в своем блоге
Эволюция HR-аналитки

Ну в общем общие термины: текучесть, тест, зарплата, эффективность, вовлеченность и т.п...
А динамика а динамика кластеров вот такая (на нижней диаграмме номер кластера соответствует кластеру на диаграмме сверху).

  • Т.е. в 2013 году (а это в моей практике по сути начало HR аналитики) преобладала тема "обучение оценка команда талант инструмент модель google кандидат процесс people", потом тема идет на спад и достигает минимума в 2015 году, а потом опять выстреливает и возвращает свои позиции в 2017 году (я полагаю, что это связано в первую очередь с нашим проектом "переводы статей по HR аналитике на английском") .
  • А вот исследования текучести ("текучесть стаж подчинённый исследование фактор респондент опрос зарплата мужчина диаграмма") достигают пика в 2014 -2015 году, а потом идут на спад. 
  • четвертый кластер стоит особняком вообще, увеличение доли в 2016 году связано с использованием тестов Лаборатории гуманитарные технологии в нашем исследовании (как раз в 2016 году начали получать серьезные результаты), а в 2017 году Лаборатория отказала в тестах, поэтому результаты пошли на спад. 

Ну вот как бы все, что можно выжать. Можно применить тематический анализ Дирихле, но там также встанет проблема интерпретации результатов:)


__________________________________________________________
На этом все, читайте нас в фейсбуке, телеграмме и вконтакте

четверг, 29 марта 2018 г.

Как скачивать / парсить тексты постов блога blogspot



Пост для пользователей Python и тех, кто занимается парсингом контента из интернета.
Недавно я показывал, как скачиваю / парсю вакансии с сайта ХХ.ру Как я скачиваю вакансии компаний с HH.ru (на примере Газпрома), сейчас я хочу показать, как можно скачивать тексты постов блогов платформы blogspot, т.е. как я могу скачать свой блог и покажу это на своем блоге.
Текст блога может быть использован в исследовании широкого класса задач, связанных с анализом текста.
Как скачивать / парсить тексты постов блога blogspot

Итак

Необходимые пакеты


import pandas as pd 
import feedparser
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
Вам надо будет установить библиотеки, которых нет по дефолту.

Сам парсинг

Первый шаг - нам необходимо получить урлы всех постов в блоге, а уже по ним скачивать содержание. И урлы мы скачиваем так.
urla = []
url = feedparser.parse('https://www.blogger.com/feeds/1020819187099399113/posts/default?redirect=false&start-index=1&max-results=50')
for x in url.entries:
    urla.append(str(x.link))
Здесь
  1. 1020819187099399113 - ID блога, который вы хотите скачать 
  2. max-results=50 - я сделал 50, но максимальное значение 500. И это плохо для блогов, где более 500 постов, но для это есть гиперпараметр 
  3. start-index=1 - если указано 1, значит вы с последнего поста начинаете отматывать парсинг, поэтому, когда вы скачали 500 постов, ставите 500 (или 501?) и продолжаете парсинг

urla = pd.Series(urla)
зачем то я полученный лист оборачиваю в формат series. И далее создаю переменную дата

Дата

date = []
# создаю переменную дата
for i, idbank in enumerate(urla):
    html = urlopen(idbank)
    bsObj = BeautifulSoup(html, "html.parser")
    nameList = bsObj.findAll("h2", { 'class':"date-header"  })
    date.append(nameList)
Нам надо очистить дату от тегов и прочего мусора, я это делаю так.
df = pd.DataFrame({'date':date})
df['date'] = df['date'].apply(lambda x: (re.sub(r'<.*?>', '', str(x))))
df['date'] =  df['date'].str.strip('[]')
df['date'] 
И мы получаем вот такой вид даты
0           вторник, 27 марта 2018 г.
1       воскресенье, 25 марта 2018 г.
2       понедельник, 19 марта 2018 г.
3       воскресенье, 18 марта 2018 г.
4           четверг, 15 марта 2018 г.
5           вторник, 13 марта 2018 г.
6       воскресенье, 11 марта 2018 г.
Это необязательная переменная, я ее добавил просто в качестве примера.


Текст постов

скачиваем так
art = []
for i, idbank in enumerate(urla):
    html = urlopen(idbank)
    bsObj = BeautifulSoup(html, "html.parser")
    nameList = bsObj.findAll("div", {"dir":"ltr", "style":"text-align: left;", "trbidi":"on"})
    art.append(nameList)
bsObj.findAll("div", {"dir":"ltr", "style":"text-align: left;", "trbidi":"on"}) - вот эта запись может быть не единственным вариантом скачивания / парсинга теста поста, я не придумал ничего более умного. И текст тоже надо причесать
df['text'] = art
df['text'] = df['text'].apply(lambda x: (re.sub(r'<.*?>', '', str(x))))
df['text'] = df['text'].str.strip('[]')
rem = {'\(adsbygoogle = window.adsbygoogle \|\| \[]\)\.push\({}\);': ''}
df['text'].replace(rem, regex=True, inplace=True)
df['text'] = df['text'].replace('\n', '', regex = True)
df['text']
Вот над этим шедевром я поработал основательно)) rem = {'\(adsbygoogle = window.adsbygoogle \|\| \[]\)\.push\({}\);': ''} в итоге получаем
0     Перевод статьи 3 Behaviors That Drive Successf...
1     Вдохновившись переводамистатей на тему Organiz...
2     Для тех, кто хочет погрузитьсяв статистическое...
3     Перевод статьи Case Study: Using ONA to Identi...
4          Провокативный пост на самом деле.Я провож...
5     Перевод статьи Consumer-goods giant Unilever h...
6     Перевод статьи The 4 Trends Changing How You H...
7          Провел опрос в телеграм канале HR-аналити...
Обращаю ваше внимание, что я ставил задачу парсить скачивать только текст постов, если вы хотите качать целые посты, то надо отказаться от очистки от тегов. Ну и т.п.
Ну или вместе это выглядит так
df
df
      date                                       text
0 вторник, 27 марта 2018 г.     Перевод статьи 3 Behaviors That Drive Successf...
1 воскресенье, 25 марта 2018 г. Вдохновившись переводамистатей на тему Organiz...
2 понедельник, 19 марта 2018 г. Для тех, кто хочет погрузитьсяв статистическое...
3 воскресенье, 18 марта 2018 г. Перевод статьи Case Study: Using ONA to Identi...
4 четверг, 15 марта 2018 г.     Провокативный пост на самом деле.Я провож...
Пользуйтесь на здоровье. Формат выгрузки можно менять, т.е. вместо переменной Дата можно поставить автора, а дату в другом формате, но это уже детали, их можно менять.



__________________________________________________________
На этом все, читайте нас в фейсбукетелеграмме и вконтакте

вторник, 27 марта 2018 г.

3 типа поведения, которые определяют успешных продавцов



Перевод статьи 3 Behaviors That Drive Successful Salespeople в рамках нашего  проекта переводы статей по hr-аналитике на английском. Автор статьи Ryan Fuller (автор Harvard Business Review и владелец компании people analytics), это уже вторая статья автора на туже тему
Что делает продавцов лучшими
Перевод сделала незаменимая Александра Багинская (по ссылке профиль с Линкедина). Саша родом с Украины, но живет и работает в Голландии. Читайте другие статьи Александры у нас в блоге:
  1. Что делает продавцов лучшими
  2. Результат через diversity - одна из самых дискутируемых тем, по ссылке результаты исследования McKinsey.
  3. Как блокчейн повлияет на HR?
  4. People Analytics 3.0
  5. Джош Берсин. Переворот рынка HR технологий: 10 топ трендов 2018 - одна из самых популярных статей блога за все время
  6. Удержать или отпустить? Данные, на которые следует корректно реагировать, когда сотрудник увольняется
  7. Соседство с лучшими сотрудниками может увеличить производительность

Также с Александрой мы работали над статьей Applying Survival Analysis to Reduce Employee Turnover: A Practical Case для западного сайта analyticsinhr.com.
Итак

3 типа поведения, которые определяют успешных продавцов

Автор Ryan Fuller, опубликовано 20 августа 2014
Большинство людей считают продажу искусством, а не наукой: некоторым людям дано, другим – нет. Но это оставляет много неопределенности в отделе, который часто приносит большую часть прибыли  компании, и существенно усложняет управление высокоэффективной торговой силой. Превалирует мнение, что количество времени, затраченное продавцами на клиентов, является самым важным фактором, определяющим объёмы их продаж. Но недавнее исследование выявило еще более мощный индикатор – размер и качество сети продавца внутри собственной компании.
HR аналитика может помочь организациям узнать больше о том, какое поведение отличает их самых успешных продавцов. В VoloMetrix мы недавно изучили коммерческую силу крупной B2B компании, использующей шесть четвертей данных квоты для нескольких тысяч сотрудников. Затем мы сопоставили это с 18-месячными КПЭ персонала VoloMetrix. Эти КПЭ измеряют такие аспекты, как время, проведенное с клиентом или менеджером, размер и кросс-функциональность внутренней сети, важность данного сотрудника во внутренней сети, время с высшим руководством и многие другие, анонимно рассчитанные по каждому сотруднику.
Мы ожидали, что у нас будет две фазы исследования. Первая просто запустит модель относительно всей торговой организации, не озадачиваясь сегментированием. Это означало, что продавцы мелкого и среднего сектора попадали в один пласт с теми, кто продает через каналы и крупным предприятиям, и что Азиатско-Тихоокеанский регион не был разграничен с Европой, Ближним Востоком и Африкой и т.п.
Наши исследователи предположили, что на этом уровне не будут выявлены значимые корреляции. Казалось очевидным, что наиболее эффективные продавцы простых недорогих товаров для малых и средних предприятий в Азии выглядят совершенно иначе, чем североамериканские продавцы, с семизначным оборотом в корпоративном секторе. Вот почему вторая фаза исследования должна была разбить продавцов на группы более схожих и повторить анализ.
Второй этап нам не понадобился.
Оказалось, что независимо от того, что и кому вы продаете и где вы находитесь, успех в продаже сильно коррелирует с тремя аспектами:
  1. достаточно времени с существующими и потенциальными клиентами
  2. большая и здоровая сеть связей в вашей собственной организации
  3. время и внимание вашего менеджера и другого высшего руководства в вашей собственной организации
Первый фактор является модным, и увеличение времени с клиентами в приоритете у большинства лидеров продаж и консультантов. К сожалению, просто увеличение количества времени, которое ваши неуспешные продавцы тратят на клиентов, вряд ли особо поможет и, на самом деле, может и навредить. Представьте себе плохого продавца, который пытается вам что-то продать, а теперь представьте, что вы проводите с ними в два раза больше времени.
Второй и третий аспекты менее очевидны, но невероятно важны.
Корпоративные покупатели становятся все более изощренными и входят в процесс продаж достаточно хорошо осведомленный о своих вариантах. Они ищут того, кто заслуживает доверия, может понять их потребности и быстро и грамотно решить их вопросы и проблемы. Для этого необходимо, чтобы продавец был в состоянии найти подходящих людей в нужном месте в нужное время. От них также ожидается знать, как получить одобрение сделки внутри их компании, иметь доступ к руководству, когда это необходимо, и иметь целостное представление о том, что может предложить вся их компания покупателю за пределами текущей транзакции.
Возьмем, например B2B компанию, о которой упоминалось ранее. Лучшие продавцы начали квартал, встречаясь с потенциальными клиентами. Но со временем их время, проведенное с клиентами, сократилось, а сеть их внутренних контактов выросла.
3 типа поведения, которые определяют успешных продавцов

Менее успешные продавцы проявляли сходные тенденции, но их показатели были ниже: они тратили на 25% меньше времени на клиентов, на 20% меньше на внутренние контакты и на 20% меньше высшее руководство.

воскресенье, 25 марта 2018 г.

Анализ коммуникаций коллектива в рабочем чате Telegram




Вдохновившись переводами статей на тему Organizational Network Analysis и постом Эдуарда Бабушкина про работукоманды, я решила попробовать провести организационный  сетевой анализ в R на реальных данных о коммуникации коллектива.

Поскольку мессенджеры нынче наше всё, источником информации стала переписка в рабочем чате Telegram одного профессионального коллектива. Мессенджер является официальным корпоративным средством связи компании, чат используется как для решения рабочих вопросов (около 70% сообщений), так и внерабочих (например, совместно заказать пиццу). В выборку не включались информационные сообщения «для всех» (учитывались только ответные сообщения на них).

Про извлечение этих данных писать особо нечего – в этом деле либо мозги и знание методов парсинга данных из мессенджеров, либо железная… точка опоры :) Я пошла по второму пути – вручную выписала информацию о переписке за 2 месяца. Зато теперь есть понимание возможных сложностей: было бы интересно посмотреть, как  при парсинге решается проблема с определением направления сообщения (кому писалось), или проблема с участниками, которые любят единый по смыслу месседж разбивать на несколько сообщений…

Итак, первое, что мы можем сделать, это построить общую картину коммуникаций в коллективе

Красиво?... Даже визуально заметно, что лидерами по частоте коммуникаций являются сотрудники 11, 15, 5, 10. Первое, что можно предположить, что это - руководители, и  на их сообщения остальные обязаны (либо просто считают необходимым) отреагировать.  Я отметила руководителей красным цветом, и стало понятно, что это предположение не вполне соответствует действительности. Я также отметила квадратом рядового сотрудника, на которого возложены функции «организатора».

Таким образом, есть еще как минимум два специалиста, которые не являются ни руководителями, ни организаторами, но демонстрируют не меньшую частоту коммуникаций.

Для наглядности, мы можем представить активность коммуникаций, вот так:


Активность: суммарное количество сообщений сотрудника и откликов на его сообщения.

Мы видим явно выбивающихся в лидеры не-руководящих 11 и  5. Может, они просто злостные спамеры и генерят поток ненужных картинок с котиками? Можем разбить показатель активности на исходящий (Out) и входящий поток (In) (в % соотношении):

Сотрудник 11 в равной степени одинаково генерит контент и получает отклики, у номера 5 преобладают исходящие, откликов явно меньше.

Вопрос для размышления: можно ли сделать вывод, что сотрудник 11, конкурирующий по активности (в том числе реакциям коллег),  с руководством – является неформальным лидером?

Также обращают на себя внимание сотрудники с крайне низким уровнем общей активности: 22, 24.

Опять вопрос: можно ли предположить, что эти сотрудники испытывают сложности с коммуникацией и обладают невысоким социальным статусом? (Хотя я бы проверила влияние стажа работы, возможно, это просто новички).

Еще один интересный разрез  - разделение по группам внутри коллектива. Данный конкретный коллектив функционально разделен на несколько отделов. Можно посмотреть, как строятся коммуникации внутри и между отделами:
  


Цветом выделены 4 функциональных отдела: «желтый» – сотрудники 1(руководитель), 2, 9, 23, «розовый» – сотрудники  7(руководитель), 13, 21,   «зеленый» - одинокий сотрудник 8, «бирюзовый» - все остальные.

Можно заметить, что большую часть коммуникаций создают сотрудники «бирюзового» отдела. Остальные слабо вовлечены в общие коммуникации, в основном через  одного участника: «розовый» через  сотрудника  13, «желтый» - через 23. Руководители обоих отделов, видимо, вообще предпочитают другие формы общения (возможно, через личные сообщения или устно). При этом, между собой внутри желтый и розовый отделы также общаются слабо, что убеждает меня в наличии альтернативного канала коммуникаций (отдельный чат).

И вновь вопрос для размышления: может ли эта картина отражать сплоченность всего коллектива, качественно характеризовать межгрупповые отношения? Например, что отделы не очень дружат между собой?

Вот еще несколько описательных характеристик сети, которые могут понять ситуацию в коллективе (вообще, параметров еще множество, я честно беру наиболее понятные для меня, как для новичка в анализе сетей).

Транзитивность (коэффициент кластеризации) - характеристика повышенной вероятности связи между двумя участниками коммуникации, если есть одинаковые связи с другими участниками (друг моего друга – мой друг). Когда коэффициент кластеризации высокий – это означает, что коммуникации чрезвычайно плотно сгруппированы вокруг нескольких участников; когда он низкий – это значит, что связи в графе относительно равномерно распространены среди всех узлов.
[1] 0.473301
На мой взгляд, коэффициент подтверждает картинку, полученную выше – коммуникации сгруппированы вокруг части сотрудников одного отдела, за его пределами плотность заметно падает.

Диаметр - максимальный кратчайший путь между любыми двумя вершинами (между которыми такой путь возможно проложить). Параметр, который показывает величину сети. 4  - много это или мало, и какие выводы из этого можно сделать – я пока не могу предположить, не хватает опыта,  сравнить не с чем (если у вас есть идеи – велком!)
[1] 4

Плотность - вычисляется как нормированное число ребер (отношение наличных связей в сети к возможному максимальному количеству связей в сети с данным количеством вершин). 
[1] 0.548913

Взаимность – думаю, понятно из названия. В нашем случае большинство связей оказываются взаимными. Предполагаю, что это хорошо для коллектива.
[1] 0.660066

Средняя длина пути – аналогично, определение очевидно. Среднее количество точек между двумя вершинами.
[1] 1.853755

На мой неопытный взгляд большинство параметров середина на половинку. Не плохо, но и не идеально.

Итак, главные вопросы к экспертному сообществу (и не к экспертному тоже – даже если вы никогда этим не занимались, давайте в режиме мозгового штурма):
1.         Можно ли использовать такую информацию, как коммуникации в чате Telegram для социометрического анализа, в частности, определения звезд и аутсайдеров, оценки социально-психологического климата или других прикладных hr-целей?
2.         Какие выводы сделали бы вы, глядя на полученную информацию?


понедельник, 19 марта 2018 г.

Специализация «Анализ данных» (обзор серии курсов)

Для тех, кто хочет погрузиться в статистическое обучение (не путать с машинным обучением) представляю обзор специализации от Новосибирского государственного университета совместно с компанией 2GIS на платформе Coursera.org"Анализ данных".
Специализация отлично подходит для начинающих работу с данными. Экспертам, занимающимся построением моделей машинного обучения будет не интересно, так как это всё же азы. Тем не менее, стройная логика и поэтапное прохождение позволит очень хорошо освежить (изучить) университетский курс мат. статистики.
Специализация состоит из четырех курсов на русском языке, выстроенных в логике постепенного усложнения:

1.      Введение в данные – основы теории вероятности, мат. статистики и графического анализа данных.
2.    Исследование статистических взаимосвязей – погружение в мат. статистику, корреляции, построение линейной регрессии.
3.    Сравнение и создание групп – способы сравнения зависимых и независимых выборок, кластерный анализ (отметил очень хорошее пояснение по кластерному анализу и способам проверки его качества).
4.       Тренды и классификации – работа с временными рядами, факторный анализ, классификация.

Каждый курс состоит из пяти недель, из них четыре учебные с видеолекциями и промежуточными тестами, на пятой неделе заполняется итоговый тест и подготавливается проектная работа. Проектная работа – взаимооцениваемое задание, это означает, что работу будут проверять такие же слушатели, как вы, а вашей задачей будет проверить ряд работ однокурсников.
В зависимости от уровня подготовки слушатель может выбрать конкретные курсы специализации, либо пройти все.
Преимущества специализации в том, что практическая часть параллельно преподаётся на SPSS и R, слушатель может выбрать тот вариант, который ближе ему, либо изучить оба. Для подготовки проектов выдаются реальные датасеты с данными  компании 2GIS.
Главный недостаток специализации в том, что она, к сожалению, платная. Бесплатный доступ предоставляется сроком на 7 дней, затем слушатель должен осуществлять ежемесячную оплату. Поскольку оплата взимается не за отдельный курс, а за специализацию и при этом материалы всего курса становятся доступными сразу, то в целях экономии можно попробовать проходить курсы параллельно и максимально быстро. Поскольку обучение платное, по окончанию каждого курса выдаётся сертификат.



Популярные сообщения

п