Если коэффициент наклона регрессионной прямой \(\beta_1\) равен нулю, то линейная взаимосвязь между переменными \(y\) и \(x\) отсутствует. В этом случае регрессионная прямая горизонтальна и математические ожидания распределений случайных величин \(Y_i\) равны, а именно: \[E(Y_i)=\beta_0+0\cdot x_i=\beta_0.\]
Таким образом, в регрессионной модели с нормальной ошибкой, равенство коэффициента регрессии \(\beta_1=0\) означает, что случайные величины \(Y_i\) одинаково распределены \(N\sim(\beta_0,\sigma)\) и, следовательно, не существует не только линейной связи, но и связи любого другого вида между откликом и регрессором.
Рассмотрим в начале характеристики выборочного распределения МНК-оценки \(b_1\) коэффициента наклона \(\beta_1\) для регрессионной модели с нормальной ошибкой.
Точечную оценку \(b_1\) можно рассчитать следующим образом: \[b_1=\frac{\sum{(x_i-\bar{x})(y_i-\bar{y})}}{\sum{(x_i-\bar{x}})^2}.\] Выборочное распределение \(b_1\) получается за счет многократного повторения эксперимента при неизменных значениях \(x_i\) переменной \(x\) от выборки к выборке.
Выборочное распределение \(b_1\) распределено по нормальному закону с математическим ожиданием \(E[b_1]=\beta_1\) и дисперсией \[var[b_1]=\frac{\sigma^2}{\sum{(x_i-\bar{x})^2}}.\] Дисперсию выборочного распределения можно оценить, заменив параметр \(\sigma^2\) на его несмещенную оценку MSE, в результате получится несмещенная оценка \[s^2[b_1]=\frac{MSE}{\sum{(x_i-\bar{x})^2}}.\]
Так как \(b_1\) имеет нормальное распределение, то стандартизированная случайная величина \((b_1-\beta_1)/\sigma[b_1]\) также распределена нормально \(N(0,1)\). Обычно, вместо стандартного отклонения \(\sigma[b_1]\) используют его оценку \(s[b_1]=\sqrt{s^2[b_1]}\), и следовательно требуется знать вид распределения случайной величины \((b_1-\beta_1)/s[b_1]\). В случае регрессионной модели с нормальной ошибкой эта случайная величина имеет распределение Стьюдента \(t\) с \(n-2\) степенями свободы: \[\frac{b_1-\beta_1}{s[b_1]}\sim t(n-2).\] Этот результат позволяет сделать статистические выводы относительно коэффициента регрессии \(\beta_1\).
Во-первых, \[P\{t_{\alpha/2}(n-2)\leq(b_1-\beta_1)/s[b_1]\leq t_{1-\alpha/2}(n-2)\}=1-\alpha,\] где \(t_{\alpha/2}(n-2)\), \(t_{1-\alpha/2}(n-2)\) квантили уровня \(\alpha/2\) \(t\)-распределения с \((n-2)\) степенями свободы. В силу симметрии распределения Стьюдента \(t_{\alpha/2}(n-2)=-t_{1-\alpha/2}(n-2)\). Следовательно с доверительной вероятностью \(1-\alpha\) все возможные значения \(\beta_1\) находятся в интервале \[b_1\pm t_{1-\alpha/2}(n-2)s[b_1].\]
Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
для которых проведем стандартную процедуру регрессионного анализа:
> fit <- lm(y ~ x);
> summary(fit)
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -83.876 -34.088 -5.982 38.826 103.528
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 62.366 26.177 2.382 0.0259 *
## x 3.570 0.347 10.290 4.45e-10 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 48.82 on 23 degrees of freedom
## Multiple R-squared: 0.8215, Adjusted R-squared: 0.8138
## F-statistic: 105.9 on 1 and 23 DF, p-value: 4.449e-10
Имеем: \(b_1\)=3.570, \(s[b_1]\)=0.347, число степеней свободы \(n-2\)=23. Если задать уровень значимости \(\alpha\)=0.05, то для \(t\)-распределения с 23 степенями свободы соответствующий квантиль уровня \(1-\alpha/2\)=0.975 равен:
> qt(p = 0.975, df = 23)
## [1] 2.068658
Откуда 95% доверительный интервал для коэффициента наклона \(\beta_1\) регрессионной прямой имеет вид [2.8520, 4.2879]. Отметим, что полученный интервал не содержит значение нуль, то есть с доверительной вероятностью 0.95 можно допустить наличие линейной взаимосвязи между переменными \(y\) и \(x\).
Во-вторых, так как \[\frac{b_1-\beta_1}{s[b_1]}\sim t(n-2),\]то относительно параметра \(\beta_1\) можно проверять различные гипотезы на основании \(t\)-распределения.
Например, для проверки двусторонней гипотезы о равенстве \(\beta_1\) заданному значению \(\beta_{a}\) используют критерий \[t^*=\frac{b_1-\beta_{a}}{s[b_1]}.\]
Проверим нулевую гипотезу \(Н_0:\beta_1=\beta_{a}=0\). Тогда, \(t^*=b_1/s[b_1]\)=3.570/0.347=10.290, что существенно превышает найденный выше квантиль \(t_{0.975}(23)\)=2.068658. Таким образом, нулевая гипотеза должна быть отвергнута и, следовательно, коэффициент наклона линии регрессии отличен от нуля. При этом вероятность ошибки первого рода составляет всего \(4.45\cdot10^{-10}\).
В-третьих, отметим необходимость проявлять осторожность при линейном прогнозе с помощью найденной оценки коэффициента наклона \(\beta_1\), так как вне учтенных при построении модели пределов для значений регрессора (в нашем случае от 20 до 120) регрессионная функция может отличаться от прямой.
Комментариев нет:
Отправить комментарий