пятница, 28 декабря 2018 г.

Что такое анализ остатков и для чего он нужен? (Линейная регрессия)

Прямая диагностика переменной отклика \(y\) обычно мало эффективна, так как отклик является функцией значений \(x_i\) независимой переменной. Вместо этого диагностику отклика можно провести опосредованно, через изучение остатков. 

Напомним, что остатком \(e_i\) называют разность между наблюдаемым значением \(y_i\) и подобранным в соответствие с выбранной регрессионной моделью значением \(\hat{y}_i\). Остатки \(e_i=y_i-\hat{y}_i\) можно рассматривать как наблюдаемую ошибку, которую, в свою очередь, необходимо отличать от истинной ошибки \(\varepsilon_i\) регрессионной модели: \(\varepsilon_i=Y_i-E[Y_i]\).

В рамках простой регрессионной модели предполагается, что слагаемые ошибки \(\varepsilon_i\) являются независимыми нормально распределенными случайными величинами с нулевым математическим ожиданием и постоянной дисперсией \(\sigma^2\). Если модель соответствует имеющимся данным, то наблюдаемые ошибки \(e_i\) должны отражать свойства, предполагаемые для \(\varepsilon_i\). Эта простая идея лежит в основе анализа остатков - чрезвычайно полезного инструмента для анализа соответствия выбранной статистической модели имеющимся данным.

Повторим основные свойства остатков:
  • Среднее арифметическое \(n\) остатков \(e_i\) для простой линейной регрессионной модели всегда равно нулю: \[\bar{e}=\frac{\sum{e_i}}{n}=0.\]Следовательно, статистика \(\bar{e}\) не дает никакой дополнительной информации о равенстве нулю математического ожидания \(E(\varepsilon_i)\) истинной ошибки.
  • Выборочная дисперсия \(n\) остатков \(e_i\) для простой линейной регрессионной модели равна MSE:\[s^2=\frac{\sum{(e_i-\bar{e})^2}}{n-2}=\frac{\sum{e_i^2}}{n-2}=\frac{\mbox{SSE}}{n-2}=\mbox{MSE}.\]Если модель подобрана верно, то MSE, как отмечалось ранее, является несмещенной оценкой дисперсии \(var(\varepsilon_i)\) истинной ошибки.
  • Остатки \(e_i\) не являются независимыми случайными переменными, так как при их расчете используются значения \(\hat{y}_i\), которые основаны на той же самой подобранной регрессионной функции. Как результат, остатки для простой регрессионной модели являются субъектом двух ограничений: во-первых, сумма остатков \(e_i\) должна быть равна нулю, во-вторых, сумма произведений вида \(x_ie_i\) также должна быть равна нулю. При этом, если размер выборки достаточно велик по сравнению с числом параметров регрессии, эффект зависимости между остатками \(e_i\) относительно не важен и им в большинстве случаев можно пренебречь.

Часто, при анализе остатков, полезно их стандартизировать. Так как стандартное отклонение \(\sigma\) слагаемого ошибки \(\varepsilon_i\) можно приближенно оценить с помощью \(\sqrt{\mbox{MSE}}\), то естественно рассмотреть следующую форму стандартизации: \[e^*_i=\frac{e_i-\bar{e}}{\sqrt{\mbox{MSE}}}=\frac{e_i}{\sqrt{\mbox{MSE}}}.\]Статистику \(e_i^*\) принято называть полустьюдентизированными (semi-studentized residuals) остатками, чтобы подчеркнуть тот факт, что настоящее стандартное отклонение для остатков \(e_i\) сложнее выбранной нами приближенной оценки и варьируется для разных остатков \(e_i\).

Анализ остатков используют для диагностики \(6\) основных типов отклонений от простой линейной регрессионной модели с нормальной ошибкой:
  1. Регрессионная функция не линейна.
  2. Дисперсия слагаемых ошибки не постоянна.
  3. Случайные величины \(\varepsilon_i\) не являются независимыми.
  4. Модель построена без учета одного или нескольких выделяющихся наблюдений.
  5. Случайные величины \(\varepsilon_i\) имеют распределение, отличное от нормального.
  6. Одна или несколько важных независимых переменных были исключены из модели.

В следующих статьях будут рассмотрены простые графические приемы анализа остатков, которые могут предоставить информацию о наличии перечисленных выше отличий от модели простой регрессии с нормальной ошибкой.

Комментариев нет:

Отправить комментарий