воскресенье, 30 сентября 2018 г.

Как оценить регрессионную функцию? (Линейная регрессия)

Если подставить найденные оценки коэффициентов регрессии \(b_0\) и \(b_1\) в уравнение регрессионной функции мы получим для нее следующую оценку: \[\hat{y}=b_0+b_1x,\] где \(\hat{y}\) - значение оценки регрессионной функции при заданном \(x\) независимой переменной, то есть \(\hat{y}\) является точечной оценки математического ожидания \(E(Y)\), когда предиктор принимает значение \(x\). 

Отметим, что \(\hat{y}_i\) - подогнанное значение в \(i\)-ом наблюдении отличается от фактически наблюдаемого в эксперименте значения \(y_i\).

Может быть показано, что \(\hat{y}\) является несмещенной оценкой \(E(Y)\) с наименьшей дисперсией в классе несмещенных линейных оценок. 

Разницу \[e_i=y_i-\hat{y}_i=y_i-(b_0+b_1x)=y_i-b_0-b_1x\] называют остатками

Следует отличать ошибку модели \(\varepsilon_i=y_i-E(Y_i)\) и остаток \(e_i=y_i-\hat{y}_i\). Ошибка модели соответствует вертикальному отклонению наблюдения от неизвестной регрессионной прямой и, следовательно, неизвестна; остаток показывает вертикальное отклонение наблюдения от оценки регрессионной прямой и может быть легко найден.

Анализ остатков чрезвычайно полезен для изучения того, соответствует ли выбранная регрессионная модель имеющимся данным.

Подобранная с помощью метода наименьших квадратов оценка регрессионной прямой имеет ряд полезных свойств:
  1. Сумма остатков равна нулю: \[\sum_{i=1}^ne_i=0.\] Отметим, что в реальных расчетах из-за ошибок округления возможны отклонения.
  2. Сумма квадратов остатков \(\sum_{i=1}^ne^2_i\) для найденной регрессионной прямой минимальна. Это следствие применения метода наименьших квадратов для нахождения параметров регрессии, так как минимум критерия \(Q\) и есть минимум суммы квадратов остатков.
  3. Сумма наблюдаемых значений \(y_i\) равна сумме подогнанных значений \(\hat{y}_i\): \[\sum_{i=1}^ny_i=\sum_{i=1}^n\hat{y_i}.\] Это следствие того, что среднее арифметическое \(y_i\) равно среднему арифметическому \(\hat{y}_i\) и равно \(\bar{y}\).
  4. Сумма взвешенных остатков равна нулю, когда в качестве весового коэффициента в \(i\)-ом испытании используется соответствующее значение предиктора: \[\sum_{i=1}^nx_ie_i=0.\]
  5. Из свойств 3 и 4 следует, что \[\sum_{i=1}^n\hat{y}_ie_i=0.\]
  6. Так как при \(x=\bar{x}\) имеем \(\hat{y}=\bar{y}+b_1(x-\bar{x})=\bar{y}\), то регрессионная прямая всегда проходит через точку с координатами \((\bar{x},\bar{y})\).

В заключении отметим, что перечисленные выше свойства оценки регрессионной функции по методу наименьших квадратов применимы не ко всем регрессионным моделям.

Комментариев нет:

Отправить комментарий