4. Зависимость \(\varepsilon_i\).
В том случае, когда данные получены последовательно (например, во времени), полезно изучить упорядоченный график остатков. Изображая остатки подобным образом можно рассмотреть наличие корреляции между наблюдениями с близкими друг к другу порядковыми номерами. В случае независимости слагаемых ошибки \(\varepsilon_i\) следует ожидать, что остатки на последовательном графике имеют более или менее случайный разброс относительно нуля, без слишком частого или слишком редкого чередования положительных и отрицательных значений.
5. Случайные величины \(\varepsilon_i\) не распределены нормально.
Ранее отмечалось, что небольшое отклонение от нормальности не приводит к серьезным ошибкам в выводах, в то время как существенное отклонение от нормальности требует отдельного рассмотрения.
Симметричность остатков и отсутствие выбросов в случае достаточного объема выборки можно изучить с помощью диаграммы "ящик-с-усами".
Другой возможностью является сравнение частоты остатков с ожидаемой частотой при условии нормального распределения. Например, можно определить, попадают ли \(68\%\) остатков \(e_i\) в интервал \(\pm\sqrt{\mbox{MSE}}\), \(90\%\) остатков в интервал \(\pm1.645\sqrt{\mbox{MSE}}\) и т. д. В случае умеренно большой выборки для сравнения следует использовать соответствующие \(t\)-значения.
Проиллюстрируем этот метод на примере, используя следующий набор данных:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
> fit <- lm(y ~ x)
> e <- fit$residuals
> I <- qt(0.95, 23) * 48.82
> length(which((-I < e) & (e < I)))
## [1] 22
Здесь: \(\sqrt{\mbox{MSE}}=48.82\), \(\mbox{df}=23\). Используя \(t\)-распределение, можно ожидать при условии нормальности, что \(90\%\) остатков попадут в интервал \(\pm t(0.95;23)\sqrt{\mbox{MSE}}=\pm1.7139\cdot48.82=\pm83.67\). Фактически в этот интервал попали \(22\) остатка (\(88\%\)). Аналогично, при условии нормальности можно ожидать, что \(60\%\) остатков попадут в интервал \(\pm41.87\). Фактически в этот интервал попали \(13\) остатков (\(52\%\)). Таким образом, эмпирические частоты соответствуют теоретическим частотам в условиях нормального распределения, следовательно, распределение остатков приблизительно нормальное.
Еще одной возможностью проверить нормальный закон распределения остатков - это построить для них график типа квантиль-квантиль (Q-Q plot). Здесь каждый остаток строится относительно своего ожидаемого значения в условиях нормальности. Если точки на графике будут расположены вблизи прямой линии, то это аргумент в пользу нормального распределения данных.
Можно показать, что для нормально распределенной случайной величины с математическим ожиданием \(0\) и оценкой стандартного отклонения \(\sqrt{\mbox{MSE}}\) хорошей аппроксимацией для ожидаемого \(k\)-ого по величине значения (ранга) в выборке объема \(n\) является число: \[\sqrt{\mbox{MSE}}\left[z\left(\frac{k-0.375}{n+0.25}\right)\right],\] где \(z(\cdot)\) - квантиль стандартного нормального распределения.
Найдем ожидаемые значения остатков и построим их зависимость от самих остатков (рис. 1):
> e_expected <- qnorm((rank(e)-.375)/(25+.25))*48.82
> library(ggplot2)
> mydata <- data.frame(e, e_expected)
> ggplot(data = mydata) +
+ geom_point(aes(x = e, y = e_expected), size = 1) +
+ geom_abline(aes(intercept = 0, slope = 1), size = .5) + theme_bw()
![]() |
Рис. 1 |
В случае правостороннего (левостороннего) скошенного распределения рассмотренный выше график был бы выпуклым вниз (вверх) соответственно. В случае, когда распределение симметрично, но имеет "тяжелые хвосты", то есть более высокие, по сравнению с нормальным распределением, вероятности для малых и больших значений, средние точки графика будут располагаться на прямой, в то время как концы будут сигнализировать о скошенности (рис. 2).
> y <- rcauchy(50, location = 0, scale = 1)
> q <- qqnorm(y)
> qqline(y, col = 2)
> mydata2 <- data.frame(q$x, q$y)
> ggplot(data = mydata2) +
+ geom_point(aes(x = q$x, y = q$y), size = 1) +
+ geom_abline(aes(intercept = 0, slope = 1), size = .5) + theme_bw()
![]() |
Рис. 2 |
6. Исключение важных предикторов из модели.
На заключительном этапе исследования полезно построить графики зависимости остатков от исключенных из модели независимых переменных, которые предположительно могут влиять на отклик. Цель здесь - посмотреть, появится или нет систематическая тенденция в поведении остатков относительно значений нового предиктора.
Подводя итог заметим следующее:
- Рассмотренные по порядку отклонения от классической регрессионной модели могут проявляться одновременно. Например, наблюдения могут иметь различную дисперсию, при этом линейная регрессионная функция также может не соответствовать данным. В таких случаях, выявить и интерпретировать рассмотренные образцы поведения данных на графике сложнее в виду наложениях их друг на друга.
- Несмотря на то, что графики относятся к неформальным методам анализа, во многих случаях они помогают быстро разобраться в особенностях исследуемых данных.
- Отклонения от классических условий регрессионной модели по-разному влияют на результаты анализа. Нелинейность регрессионной функции или исключение из обработки важных предикторов приводят к сильному смещению оценок параметров регрессии и дисперсии ошибки. Непостоянство дисперсии снижает эффективность оценок параметров регрессии и вносит ошибку в оценку дисперсии. Влияние выбросов сказывается сильнее при средних и малых выборках. Зависимость ошибок приводит к хоть и несмещенным оценкам, однако дисперсии таких оценок имеют сильное смещение.