воскресенье, 14 октября 2018 г.

Как проверить значимость коэффициента сдвига прямой? (Линейная регрессия)

Обозначим через \(x_h\) значение переменной \(x\) при котором требуется построить оценку для математического ожидания отклика. Значение \(x_h\) может принадлежать выборке данных или может быть выбрано произвольно из области определения регрессора. Обозначим через \(E(Y_h)\) математическое ожидание отклика при \(x=x_h\). Тогда точечную оценку \(E(Y_h)\) дает формула \[\hat{y}_h=b_0+b_1x_h.\]

Выборочное распределение \(\hat{y}_h\) получается за счет многократного повторения эксперимента при неизменных значениях \(x_i\) переменной \(x\) от выборки к выборке и расчете для каждой новой выборки значения \(\hat{y}_h\). 

Для простой линейной модели с нормальной ошибкой \(\hat{y}_h\) распределено нормально с математическим ожиданием и дисперсией: \[E[\hat{y}_h]=E[b_0+b_1x_h]=E[b_0]+x_hE[b_1]=\beta_0+\beta_1x_h=E[Y_h],\] \[var[\hat{y}_h]=\sigma^2\left[\frac{1}{n}+\frac{(x_h-\bar{x})^2}{\sum{(x_i-\bar{x})^2}}\right].\]

Тот факт, что \(\hat{y}_h\) распределено по нормальному закону прямо следует из того, что \(\hat{y}_h\) (также как \(b_0\) и \(b_1\)) является линейной комбинацией нормально распределенных наблюдений \(Y_i\).

Отметим также, что на дисперсию \(var[\hat{y}_h]\) влияет то, насколько \(x_h\) отстоит от \(\bar{x}\), а именно: чем больше расстоянием между \(x_h\) и \(\bar{x}\), тем больше выражение \((x_h-\bar{x})^2\) и тем больше дисперсия \(var[\hat{y}_h]\).

Подставив оценку MSE вместо \(\sigma^2\), получим оценку дисперсии \(\hat{y}_h\) \[s^2[\hat{y}_h]=MSE\left[\frac{1}{n}+\frac{(x_h-\bar{x})^2}{\sum{(x_i-\bar{x})^2}}\right].\]C помощью арифметического корня \(s[\hat{y}_h]\) получим оценку стандартного отклонения \(\hat{y}_h\). 

Заметим здесь, что при \(x_h=0\), получим \(\hat{y}_h=b_0+b_1x_h=b_0\) и, следовательно, дисперсия \(var[\hat{y}_h]\) и ее оценка \(s^2[\hat{y}_h]\) совпадут с дисперсией и ее оценкой для коэффициента сдвига \(b_0\): \(var[b_0]\) и \(s^2[b_0]\).

Случайная величина \[\frac{\hat{y}_h-E(Y_h)}{s[\hat{y}_h]}\sim t(n-2)\]и, следовательно, появляется возможность делать статистические выводы относительно коэффициента регрессии \(E(Y_h)\) используя \(t\)-распределение.

\(1-\alpha\) доверительный интервал для \(E(Y_h)\) получается аналогично доверительным интервалам для параметров сдвига \(\beta_0\) и наклона \(\beta_1\) и имеет вид: \[\hat{y}_h\pm t_{1-\alpha/2}(n-2)\cdot s[\hat{y}_h].\]

Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
Построим 90% доверительный интервал для математического ожидания отклика при \(x_1\)=65, \(x_2\)=100
> new <- data.frame(x = c(65, 100))
> fit <- lm(y ~ x)
> predict(fit,
+         new,
+         se.fit = TRUE,
+         interval = "confidence",
+         level = 0.9)

## fit
##        fit      lwr      upr
## 1 294.4290 277.4315 311.4264
## 2 419.3861 394.9251 443.8470
## 
## se.fit
##         1         2 
##  9.917579 14.272328 
Таким образом, для значения \(x_1\)=65 имеем: \(\hat{y}_h\)=294.4290, \(s[\hat{y}_h]\)=9.917579, интервал [277.4315, 311.4264]; для значения \(x_2\)=100 имеем: \(\hat{y}_h\)=419.3861, \(s[\hat{y}_h]\)=14.272328, интервал [394.9251, 443.8470].

Отметим, что второй доверительный интервал шире первого, так как значение \(x_2\)=100 существенно дальше отстоит от среднего \(\bar{x}\)=70 чем значение \(x_1\)=65.

Комментариев нет:

Отправить комментарий