Share |

вторник, 10 сентября 2013 г.

Анализ критериев успешности продавцов

Данный пост – результат работы с данными кейса Критерии отбора торговых представителей
Формат поста – описание того, как я искал решение. Решение само я даю в виде вопроса, поскольку не уверен в корректности решения. Тем более, сама выборка из 15-ти человек не позволяет говорить о корректности. Но важны сами обсуждаемые принципы. Включайтесь.
И честно признаюсь, что не владею пока математическим инструментом решения таких кейсов.
Очень надеюсь, что читателями поста станут спецы по статистике, которые подскажут мне метод решения таких задач. Для спецов назвал бы пост «Поиск латентных переменных».
Но думаю, что и не спецам по статистике будет интересно посмотреть, как может происходить анализ критериев успешности продавцов. Или сразу переходите в самый ботом статьи к содержательной интерпретации.
И последнее замечание: я многие вещи опускаю, поскольку иначе пост был бы крайне раздут, поэтому приветствую вопросы на понимание и критику.

Вводная

Держите перед глазами таблицу кейса Критерии отбора торговых представителей
Создаем линейную регрессию по полю Общий показатель производительности (далее буду называть для краткости – КПЭ). Опускаю здесь преобразование номинативных переменных в фиктивные.
R^2 = 0,593, предикторы – показатели по тесту Вандерлинк и Тип личности Восприимчивый.
Уравнение имеет следующий вид: Y= 43, 515 + 1,542 * (показатель по тесты Вандерлинк) + 13, 892 * (в случае, если продажник имеет Тип личности «Восприимчивый»)
И на этом можно было бы остановиться. Не описывая сути сомнений, скажу, что следующим шагом я решил посмотреть диаграммы рассеяния
Прошу посмотреть на диаграмму.
Анализ критериев успешности продавцов

По оси Y у нас КПЭ, по оси Х – показатели теста Вандерлинк. Не знаю заметили ли вы то, что заметил я, но мне показалось, что это рассеяние можно описать не одним уравнением, а двумя. И вот какие линии я увидел на графике. Вы можете повторить мой визуальный анализ, построив диаграмму на основе табличных значений ниже
Анализ критериев успешности продавцов

Вот собственно здесь вопрос к специалистам по статистике: как можно, не прибегая к визуальным методам анализа, получить более одного уравнения описания данных?
Далее я руками отобрал данные и создал уже две выборки. Ниже на графиках показаны уравнения и R^2 полученных выборок
Анализ критериев успешности продавцов
Анализ критериев успешности продавцов

Впечатляет? R^2  см выше общего уравнения – 0, 593, а в данном случае от 0,73 до 0,97 (невероятное нечто).

Новая переменная

Далее мы можем ввести новую номинативную переменную, где первый график 1, второй – 0.
И далее, доверяя Крыштановскому (см. Анализ социологических данных) создаем такое уравнение
Y = (2,2313x + 14,24)*N1 +( -0,1788x2 + 12,682x - 112,94)N2
Где X – показатель по тесту Вандерлинк, а N1,2 – показатели номинативной переменной. Они принимают значение 0 или 1, поэтому в каждом конкретном случае мы получаем лишь одно из уравнений.
*и обращаю внимание, что я пока не обсуждаю значимость уравнений, коэффициентов и т.п., но смотрю сам принцип.
Давайте назовем новую переменную - Новая
Но нам важно не просто ввести новую номинативную переменную, а на основе ее научиться предсказывать успешность продавцов, а для этого понять, что из себя представляет эта переменная, какой смысл несет в себе и, главное, понять, как ее вычислять.
Ниже привожу таблицу, где первая колонка задает новую номинативную переменную, полученную после анализа графиков, а последние две колонки – оцифрованные показатели по Типу личности – Восприимчивый и семейное положение.
 НОВАЯ
Общий показатель про- изводи- тельности
возраст
Стаж работы в области сбыта
Склон- ность к продажам
Показатель заинтересо-ванности по тесту Кэмпбелла Стронга
Показатель заинтересо- ванности по тесту Вандерлика
восприимчивый
(1-да; 0-нет)
семья
(1-женат, замужем; 0 - нет)
1
109
25
3
65
35
41
0
0
1
100
49
20
68
48
39
0
0
1
99
24
2
63
43
38
0
0
1
91
27
5
43
49
36
0
0
1
78
36
11
71
46
28
0
0
1
77
52
10
55
39
28
0
0
2
120
29
5
55
33
32
1
1
2
115
26
3
60
55
36
1
1
2
110
34
10
32
38
38
1
0
2
110
55
15
35
43
38
0
1
2
105
41
19
56
54
34
1
0
2
104
46
20
33
42
28
1
1
2
102
62
32
55
42
28
0
0
2
96
24
1
63
41
29
0
1
2
85
38
9
61
43
23
1
1
Еще раз приношу извинения, что таблица неполная, а уже чуть отформатированная -для удобства. В любом случае вы можете сами построить полную таблицу на основе данных.
Визуальный анализ показывает, что частота распределений по переменным «Восприимчивый» и «Семейное положение» явно неравномерна пори сопряжения с Новой переменной. Критерий  Манн Уитни показывает значимость различий КПЭ по группам Новой переменной:
Для 1-й группы среднее значение КПЭ – 92, 333
Для 1-й группы среднее значение КПЭ – 105, 222
Уже один этот показатель говорит, что я «попал» с переменной.
При введении в уравнение регрессии Новую переменную мы получаем такие данные
R^2 = 0, 803 (в первоначальном, 0, 593)
Предикторы Вандерлинк и Новая переменная. Из неприятностей – только то, что константа уравнения не значима на уровне 0, 473 (это отдельно надо обсуждать). Итого, уравнение
Y = 9, 821 + 1, 822 *  (показатель по тесты Вандерлинк) + 18, 758 * (в случае, если продажник имеет показатель 1 по Новой переменной).

Содержательная интерпретация

Здесь меня ждала самая большая неудача: я не смог создать уравнения получения Новой переменной. Очевидно, что прогноз нужно строить на основе Восприимчивости и Семейного положения, полученная бинарная регрессия объясняет 93 % полученных случаев, R^2 высоки, но коэффициенты регрессии имеют значимость 0, 999, а Вальд вообще равен 0. Т.е. при том, что само уравнение имеет высокую значимость, я не смог вычислить Новую переменную.
Очевидным кажется вывод, что в уравнение эффективности можно включить логическое выражение «Восприимчивый» и/или «Женат / замужем». Но реально за этим стоит переменная, которая стоит в определяет / определяется указанными переменными. И скорее всего, еще какой то, которая не вошла в наши уравнения.

Итого, вопросы

Как вычислить математическими методами латентную переменную?
Ну или может быть вы не согласны со мной в принципе и данная латентная переменная не существует?

Комментариев нет:

Отправить комментарий

рек