Независимо от вида распределения вероятностей слагаемого ошибки \(\varepsilon_i\) (и следовательно \(Y_i\)) метод наименьших квадратов обеспечивает несмещенные точечные оценки для \(\beta_0\) и \(\beta_1\) с минимальной дисперсией в классе линейных оценок.
Чтобы построить интервальные оценки и иметь возможность проверять статистические гипотезы необходимо сделать предположение относительно вида распределения \(\varepsilon_i\). Классическим является предположение о нормальном распределении ошибки. Такое предположение существенно упрощает теорию регрессионного анализа, а также удовлетворяет условиям для многих практических задач.
Регрессионная модель с нормальной ошибкой имеет вид: \[Y_i=\beta_0+\beta_1x_i+\varepsilon_i,\] где:
- \(Y_i\) - случайная величина, наблюдаемый отклик в \(i\)-ом испытании;
- \(x_i\) - константа, значение предиктора в \(i\)-ом испытании;
- \(\beta_0\) и \(\beta_1\) - параметры модели (регрессионные коэффициенты);
- \(\varepsilon_i\) - случайная величина, наблюдаемая ошибка в \(i\)-ом испытании, \(\varepsilon_i\sim N(0,\sigma^2)\).
- Символ \(N(0,\sigma^2)\) означает, что случайная величина имеет нормальное распределение с математическим ожиданием \(0\) и дисперсией \(\sigma^2\).
- Рассматриваемая модель аналогична простой модели первого порядка к которой добавлено условие о нормальном распределении слагаемого ошибки \(\varepsilon_i\).
- Так как в рассматриваемой модели предполагается, что \(\varepsilon_i\) нормально распределены, то вместо отсутствия корреляции между наблюдениями можно говорить об их независимости. Таким образом, ошибка в одном испытании, будь она положительна или отрицательна, мала или велика, не оказывает влияние на ошибки в других испытаниях.
- Рассматриваемая модель подразумевает, что случайные величины \(Y_i\) независимы, нормально распределены с математическим ожиданием \(E(Y_i)=\beta_0+\beta_1x_i\) и равными дисперсиями \(\sigma^2\).
- Предположение о нормальном распределении ошибки оправдано по нескольким причинам. Во-первых, ошибка может быть сформирована за счет факторов которые исключены из модели, но влияют на отклик. Вариация этих факторов случайна и не зависит от значений переменной \(x\). Более того, если неучтенных факторов много и они взаимно независимы, то представляющая их суммарная ошибка \(\varepsilon_i\) вследствие центральной предельной теоремы имеет асимптотически нормальное распределение. Во-вторых, статистические выводы о параметрах модели в случае нормального распределения ошибки основаны на \(t\)-распределении, которое не чувствительно к малым отклонениям от нормальности. Таким образом, если распределение ошибки похоже на нормальное (особенно в части симметрии), то найденные доверительные коэффициенты будут близки к тем, что могут быть рассчитаны исходя из условия нормальности.
Комментариев нет:
Отправить комментарий