.

Сделать репост в соц сети!

вторник, 5 февраля 2019 г.

"Заказчик всегда интересуется, что же скрывается «под капотом» модели..." интервью с Владимиром Смагиным


Вводная: я познакомился с Владимиром Смагиным в 2016 году, когда сам работал в Сбербанке. И тогда спецы в Сбербанке только-только подходили к предиктивной аналитике в HR. Интервью, к сожалению, не позволяет раскрыть все нюансы, но поверьте, проделана не просто огромная техническая, но и организационная работа - был переформатирован менеджмент. И это заслуга Владимира. Далее слово ему самому.
"Заказчик всегда интересуется что же скрывается «под капотом» модели..." интервью с Владимиром Смагиным

Владимир, давайте для начала познакомимся. Расскажите о себе нашей аудитории: какова Ваша должность и функционал в Сбербанке 

Добрый день, Эдуард. Прежде всего хочу сказать Вам спасибо за возможность рассказать о достижениях команды Сбербанка аудитории Ваших подписчиков.
В Сбербанке я занимаю должность Директора проектов, но, по большому счету, эта информация читателю ни о чем не скажет. А вот функционал, да. В группе Сбербанк я работаю уже более 6ти лет, 3 из которых в самом Сбербанке. На данный момент, я являюсь CDO (Chief Data Officer) блока HR: отвечаю за качество, доступность и поставку всех HR данных по Банку. А также являюсь основным проектным менеджером по предиктивной аналитике. Т.е. по сути веду весь тракт данных от момента ввода в корневые HR системы до встраивания результата моделирования в процессы Банка.

Прежде чем выходить на предиктивное моделирование, данные должны быть собраны, агрегированы, очищены. Это глобальная задача с учетом того, что часто данные ведутся в разных системах, ведутся не всегда корректно. Как вы решали эту задачу?

Эдуард, полностью с вами согласен, что это глобальная задача и очень серьезный вызов для нас. 250 000 сотрудников Банка, территориальное распределение по всем субъектам РФ, до 50%  текучесть персонала (на массовых позициях), внутренние и регуляторные особенности – все это вносит свою порцию сложностей в и, без того, проблемную область работы с данными.
Наши основные системы HR  - это SAP HCM и Success Factors. Из этих систем данные сливаются в SAP Business Warehouse, откуда потом попадают в основное хранилище данных - Teradata. Там данные обогащаются из других внутренних источников (знания о клиенте, данные о производительности сотрудников, случаях фрода, о времени входа в системы банка и т.д.).
На каждом из узлов данные подвергаются проверкам:

  • В  SAP HCM еженедельно проверяются все важные данные. Отчет о проблемах направляется ответственным лицам для устранения выявленных проблем. Качество исходных данных напрямую привязано к денежной мотивации ответственных сотрудников;
  • В SF, BW данные проверяются на уровне постпроверок, также с нотификацией ответственных;
  • В Teradata данные поступают через ряд преднастроенных проверок. Если какие-то из проверок не пройдены – данные в промышленный контур не идут.  

Общий объем HR Data Lake (хранилища, где работают все Data Engineers and DataScientists по HR)  составляет 5 терабайт. При этом мы дополнительно используем ресурсы общебанковской Фабрики данных, где объемы на порядки выше.
 Все проверки и стабильность поступления данных мы отслеживаем в системе мониторинга. Там же встроен мониторинг корректности работы ролевой модели данных (необходимо чтобы доступ к данным получали только те, кому это действительно нужно и можно согласно их должностных обязанностей).

Итак, и вот данные готовы, а какие задачи удалось решить в области предиктивной аналитики?

Мы стараемся расширить покрытие моделями прогнозирования всего HR-цикла.

  1. Пока что основные успехи у нас в удержании массовых специальностей: консультантов, менеджеров по продажам в структурных подразделениях Банка, DSA, операторов колл-центра. 
  2. Однако, в 2018 году нам удалось построить модель отбора на позицию менеджера по продажам. Результат: модель осуществляет на 30% больше успешных назначений, чем руководители.
  3. Также в прошлом году успешно внедрили модель подбора кандидатов на должность Консультант через Сбербанк-онлайн. Модель выбирает среди наших клиентов кого бы заинтересовало предложение о трудоустройстве на эту позицию.

Поделитесь самым вкусным: какие алгоритмы использовали, какова точность модели (-ей?)?

Эдуард, я бы конечно хотел рассказать что-нибудь интересное про глубокое обучение или хотя бы леса деревьев, но увы все намного прозаичнее.
Поскольку мы все-таки про людей, то заказчик всегда интересуется что же скрывается «под капотом» модели, какие атрибуты сработали, как именно они сработали. Поэтому основное требование к модели, помимо точности, - это прозрачность ее работы. Соответственно, мы используем один из самых популярных алгоритмов в MachineLearning – Логистическая регрессия.
40% Gini – это гигиенический минимум по работе с моделью (мера Джини - вероятность, что объект или в нашем случае кандидат будет спрогнозирован верно - прим. Э.Б.). При этом модель отбора на Менеджеров по продажам у нас получилась в 68% Gini, а прогноз подбора Java разработчиков – 75%.

Не пробовали считать ROI (return on investments) от внедрения модели? 

Финансово-экономическое обоснование (ФЭО) – это обязательный пререквизит по работе с моделями. Перед стартом проекта по построению модели, мы вместе с заказчиком формируем предварительное ФЭО. Если сэкономить\дополнительно заработать за счет этой модели у Банка не получается, то, как минимум, у модели будет низкий приоритет. После разработки модели мы проводим пилот ее применения и уже на нем оценивается реальное ФЭО от модели.
Немного цифр:

  • Удержание Менеджеров по продажам – 54,3 млн в год
  • Удержание Консультантов –  25,4 млн в год
  • Отбор на Менеджеров по продажам – 77,6 млн в год.

Каковы дальнейшие планы? Какие задачи планируете решать?
Этот год мы завершаем тираж моделей оттока по массовым должностям и переходим к работе с удержанием не массовых должностей Банка.
В первую очередь, это конечно ИТ специалисты, без которых в Банке сейчас не обходится ни один проект или регулярная деятельность.
С учетом нашего успешного опыта по модели отбора на менеджеров по продажам, в этом году будем тиражировать этот подход на другие массовые должности.
Также в планах переход на работу с внешними кандидатами и повышение качества подбора с помощью предиктивной аналитики.

Какая команда у Вас работает над этими задачами? Как распределены роли и задачи?

У нас распределенная команда: внутри блока у нас сосредоточена экспертиза по работе с данными и основные  ресурсы Data Engineers сидят у нас. При этом DataScientist находятся в Розничном блоке и банковском офисе CDS, где собрана основная экспертиза по моделированию.
Схема, в которой мы работаем следующая:

  • Есть бизнес команда, которая занимается разработкой моделей (1 DE, 2 DE)
  • Команда обслуживания HR Data Lake (2 DE);
  • Операционное управление и внедрение в промышленный контур (в этой роли я).

Как видите, для таких масштабных задач команда не большая. Максимально эффективное использование ресурсов команды, автоматизация процессов и фокус на приоритетных задачах для Банка позволяют достигать высоких результатов.

Владимир, спасибо огромное за интервью!

__________________________________________________________

На этом все, читайте нас в телеграмме и вконтакте

Комментариев нет:

Отправить комментарий