понедельник, 7 января 2019 г.

Как по графику проверить независимость и нормальность ошибок? (Линейная регрессия)

4. Зависимость \(\varepsilon_i\).

В том случае, когда данные получены последовательно (например, во времени), полезно изучить упорядоченный график остатков. Изображая остатки подобным образом можно рассмотреть наличие корреляции между наблюдениями с близкими друг к другу порядковыми номерами. В случае независимости слагаемых ошибки \(\varepsilon_i\) следует ожидать, что остатки на последовательном графике имеют более или менее случайный разброс относительно нуля, без слишком частого или слишком редкого чередования положительных и отрицательных значений.

5. Случайные величины \(\varepsilon_i\) не распределены нормально.

Ранее отмечалось, что небольшое отклонение от нормальности не приводит к серьезным ошибкам в выводах, в то время как существенное отклонение от нормальности требует отдельного рассмотрения. 

Симметричность остатков и отсутствие выбросов в случае достаточного объема выборки можно изучить с помощью диаграммы "ящик-с-усами". 

Другой возможностью является сравнение частоты остатков с ожидаемой частотой при условии нормального распределения. Например, можно определить, попадают ли \(68\%\) остатков \(e_i\) в интервал \(\pm\sqrt{\mbox{MSE}}\), \(90\%\) остатков в интервал \(\pm1.645\sqrt{\mbox{MSE}}\) и т. д. В случае умеренно большой выборки для сравнения следует использовать соответствующие \(t\)-значения. 

Проиллюстрируем этот метод на примере, используя следующий набор данных:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)

> fit <- lm(y ~ x)
> e <- fit$residuals
> I <- qt(0.95, 23) * 48.82
> length(which((-I < e) & (e < I)))

## [1] 22
Здесь: \(\sqrt{\mbox{MSE}}=48.82\), \(\mbox{df}=23\). Используя \(t\)-распределение, можно ожидать при условии нормальности, что \(90\%\) остатков попадут в интервал \(\pm t(0.95;23)\sqrt{\mbox{MSE}}=\pm1.7139\cdot48.82=\pm83.67\). Фактически в этот интервал попали \(22\) остатка (\(88\%\)). Аналогично, при условии нормальности можно ожидать, что \(60\%\) остатков попадут в интервал \(\pm41.87\). Фактически в этот интервал попали \(13\) остатков (\(52\%\)). Таким образом, эмпирические частоты соответствуют теоретическим частотам в условиях нормального распределения, следовательно, распределение остатков приблизительно нормальное.

Еще одной возможностью проверить нормальный закон распределения остатков - это построить для них график типа квантиль-квантиль (Q-Q plot). Здесь каждый остаток строится относительно своего ожидаемого значения в условиях нормальности. Если точки на графике будут расположены вблизи прямой линии, то это аргумент в пользу нормального распределения данных.

Можно показать, что для нормально распределенной случайной величины с математическим ожиданием \(0\) и оценкой стандартного отклонения \(\sqrt{\mbox{MSE}}\) хорошей аппроксимацией для ожидаемого \(k\)-ого по величине значения (ранга) в выборке объема \(n\) является число: \[\sqrt{\mbox{MSE}}\left[z\left(\frac{k-0.375}{n+0.25}\right)\right],\] где \(z(\cdot)\) - квантиль стандартного нормального распределения. 

Найдем ожидаемые значения остатков и построим их зависимость от самих остатков (рис. 1):
> e_expected <- qnorm((rank(e)-.375)/(25+.25))*48.82

> library(ggplot2)
> mydata <- data.frame(e, e_expected)
> ggplot(data = mydata) + 
+   geom_point(aes(x = e, y = e_expected), size = 1) + 
+   geom_abline(aes(intercept = 0,  slope = 1), size = .5) + theme_bw()
Рис. 1
На графике точки расположены вблизи прямой линии, то есть можно полагать, что ошибки распределено приблизительно нормально. Отметим также, что в случае повторных значений для остатков их ранги усредняются обычным образом.

В случае правостороннего (левостороннего) скошенного распределения рассмотренный выше график был бы выпуклым вниз (вверх) соответственно. В случае, когда распределение симметрично, но имеет "тяжелые хвосты", то есть более высокие, по сравнению с нормальным распределением, вероятности для малых и больших значений, средние точки графика будут располагаться на прямой, в то время как концы будут сигнализировать о скошенности (рис. 2).
> y <- rcauchy(50, location = 0, scale = 1)
> q <- qqnorm(y)
> qqline(y, col = 2)
> mydata2 <- data.frame(q$x, q$y)
> ggplot(data = mydata2) +
+   geom_point(aes(x = q$x, y = q$y), size = 1) +
+   geom_abline(aes(intercept = 0,  slope = 1), size = .5) + theme_bw()
Рис. 2
Анализ отклонения распределения случайных величин \(\varepsilon_i\) от нормального закона проводить труднее, чем анализ других отклонений регрессионной модели от классических условий. Во-первых, если размер выборки недостаточно большой, изучать природу закона распределения затруднительно в виду отсутствия стабилизации в вариации данных. Во-вторых, другие отклонения от классической регрессионной модели также влияют на характер распределения остатков. Например, остатки могут иметь отличное от нормального распределение в случае ошибки при выборе регрессионной функции или в случае различной дисперсии наблюдений. Следовательно, оптимально сначала исследовать модель на наличие иных отклонений и в заключении исследовать вопрос о виде распределения остатков.

6. Исключение важных предикторов из модели.

На заключительном этапе исследования полезно построить графики зависимости остатков от исключенных из модели независимых переменных, которые предположительно могут влиять на отклик. Цель здесь - посмотреть, появится или нет систематическая тенденция в поведении остатков относительно значений нового предиктора.

Подводя итог заметим следующее:
  • Рассмотренные по порядку отклонения от классической регрессионной модели могут проявляться одновременно. Например, наблюдения могут иметь различную дисперсию, при этом линейная регрессионная функция также может не соответствовать данным. В таких случаях, выявить и интерпретировать рассмотренные образцы поведения данных на графике сложнее в виду наложениях их друг на друга.
  • Несмотря на то, что графики относятся к неформальным методам анализа, во многих случаях они помогают быстро разобраться в особенностях исследуемых данных.
  • Отклонения от классических условий регрессионной модели по-разному влияют на результаты анализа. Нелинейность регрессионной функции или исключение из обработки важных предикторов приводят к сильному смещению оценок параметров регрессии и дисперсии ошибки. Непостоянство дисперсии снижает эффективность оценок параметров регрессии и вносит ошибку в оценку дисперсии. Влияние выбросов сказывается сильнее при средних и малых выборках. Зависимость ошибок приводит к хоть и несмещенным оценкам, однако дисперсии таких оценок имеют сильное смещение.

Комментариев нет:

Отправить комментарий