Processing math: 0%

вторник, 16 октября 2018 г.

Как построить доверительный интервал для матожидания отклика? (Линейная регрессия)

Обозначим через значение переменной x при котором требуется построить оценку для математического ожидания отклика. Значение x_h может принадлежать выборке данных или может быть выбрано произвольно из области определения регрессора. Обозначим через E(Y_h) математическое ожидание отклика при x=x_h. Тогда точечную оценку E(Y_h) дает формула \hat{y}_h=b_0+b_1x_h.

Выборочное распределение \hat{y}_h получается за счет многократного повторения эксперимента при неизменных значениях x_i переменной x от выборки к выборке и расчете для каждой новой выборки значения \hat{y}_h

Для простой линейной модели с нормальной ошибкой \hat{y}_h распределено нормально с математическим ожиданием и дисперсией: E[\hat{y}_h]=E[b_0+b_1x_h]=E[b_0]+x_hE[b_1]=\beta_0+\beta_1x_h=E[Y_h], var[\hat{y}_h]=\sigma^2\left[\frac{1}{n}+\frac{(x_h-\bar{x})^2}{\sum{(x_i-\bar{x})^2}}\right].

Тот факт, что \hat{y}_h распределено по нормальному закону прямо следует из того, что \hat{y}_h (также как b_0 и b_1) является линейной комбинацией нормально распределенных наблюдений Y_i.

Отметим также, что на дисперсию var[\hat{y}_h] влияет то, насколько x_h отстоит от \bar{x}, а именно: чем больше расстоянием между x_h и \bar{x}, тем больше выражение (x_h-\bar{x})^2 и тем больше дисперсия var[\hat{y}_h].

Подставив оценку MSE вместо \sigma^2, получим оценку дисперсии \hat{y}_h s^2[\hat{y}_h]=MSE\left[\frac{1}{n}+\frac{(x_h-\bar{x})^2}{\sum{(x_i-\bar{x})^2}}\right].C помощью арифметического корня s[\hat{y}_h] получим оценку стандартного отклонения \hat{y}_h

Заметим здесь, что при x_h=0, получим \hat{y}_h=b_0+b_1x_h=b_0 и, следовательно, дисперсия var[\hat{y}_h] и ее оценка s^2[\hat{y}_h] совпадут с дисперсией и ее оценкой для коэффициента сдвига b_0: var[b_0] и s^2[b_0].

Случайная величина \frac{\hat{y}_h-E(Y_h)}{s[\hat{y}_h]}\sim t(n-2)и, следовательно, появляется возможность делать статистические выводы относительно коэффициента регрессии E(Y_h) используя t-распределение.

1-\alpha доверительный интервал для E(Y_h) получается аналогично доверительным интервалам для параметров сдвига \beta_0 и наклона \beta_1 и имеет вид: \hat{y}_h\pm t_{1-\alpha/2}(n-2)\cdot s[\hat{y}_h].

Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
Построим 90% доверительный интервал для математического ожидания отклика при x_1=65, x_2=100
> new <- data.frame(x = c(65, 100))
> fit <- lm(y ~ x)
> predict(fit,
+         new,
+         se.fit = TRUE,
+         interval = "confidence",
+         level = 0.9)

## fit
##        fit      lwr      upr
## 1 294.4290 277.4315 311.4264
## 2 419.3861 394.9251 443.8470
## 
## se.fit
##         1         2 
##  9.917579 14.272328 
Таким образом, для значения x_1=65 имеем: \hat{y}_h=294.4290, s[\hat{y}_h]=9.917579, интервал [277.4315, 311.4264]; для значения x_2=100 имеем: \hat{y}_h=419.3861, s[\hat{y}_h]=14.272328, интервал [394.9251, 443.8470].

Отметим, что второй доверительный интервал шире первого, так как значение x_2=100 существенно дальше отстоит от среднего \bar{x}=70 чем значение x_1=65.

Комментариев нет:

Отправить комментарий