Пост скорее для себя.
Одна из основных проблем использования линейной регрессии - ненормальной распределения переменных. Выбросы сильно искажают картину. Для некоторых случаев можно пренебречь ими: ну, например, отбросить члена КПСС с дореволюционным стажем из выборки. К сожалению, так получается не всегда, поэтому мы можем преобразовать переменную для того, чтобы получаемые данные подчинялись закону нормального распределения.
У нас есть в ассортимента два наиболее распространенных снаряда:
Корень квадратный мне не нравится: он не меняет характер распределения, а только сужает асимметрию до адекватных размеров, и мы закрываем глаза на выбросы, которые как бы уже и не выбросы
логарифмирование меняет характер распределения. Я сегодня сделал логарифмирование в программе R, вот собственно и хочу похвастаться
Исходные данные
После логарифмирования
Чувствуется разница?
И собственно все элементарно
i = log10(Y$переменная)
l = cbind(Y, i)
Для аналитиков: я не претендую на что-то гениальное. ничуть. Это пост баловство, иногда хочется поиграться с диаграммками.
Одна из основных проблем использования линейной регрессии - ненормальной распределения переменных. Выбросы сильно искажают картину. Для некоторых случаев можно пренебречь ими: ну, например, отбросить члена КПСС с дореволюционным стажем из выборки. К сожалению, так получается не всегда, поэтому мы можем преобразовать переменную для того, чтобы получаемые данные подчинялись закону нормального распределения.
У нас есть в ассортимента два наиболее распространенных снаряда:
- корень квадратный
- логарифмирование
Корень квадратный мне не нравится: он не меняет характер распределения, а только сужает асимметрию до адекватных размеров, и мы закрываем глаза на выбросы, которые как бы уже и не выбросы
логарифмирование меняет характер распределения. Я сегодня сделал логарифмирование в программе R, вот собственно и хочу похвастаться
Исходные данные
После логарифмирования
Чувствуется разница?
И собственно все элементарно
i = log10(Y$переменная)
l = cbind(Y, i)
Для аналитиков: я не претендую на что-то гениальное. ничуть. Это пост баловство, иногда хочется поиграться с диаграммками.
Это хорошо если значения переменных взяты по модулю.
ОтветитьУдалитьА если же в значениях есть как положительные, так и отрицательные значения?
Сначала написал, потом понял, что написал наивную глупость, всего-то нужно привести все значения к положительным.
ОтветитьУдалить