понедельник, 1 октября 2018 г.

Как оценить дисперсию слагаемого ошибки? (Линейная регрессия)

Для того чтобы получить представление о вариации распределений вероятностей \(Y_i\) в простой модели первого порядка необходимо оценить дисперсию \(\sigma^2\) элемента ошибки \(\varepsilon_i\).

Известно, что дисперсию \(\sigma^2\) выборки можно оценить с помощью выборочной дисперсии \(s^2\). Чтобы получить выборочную дисперсию \(s^2\) берут отклонения наблюдений \(y_i\) от среднего выборки \(\bar{y}\), возводят их в квадрат и находят сумму полученных величин: \[\sum_{i=1}^n(y_i-\bar{y})^2.\] Эту сумму называют суммой квадратов. Затем сумму квадратов делят на число степеней свободы. В нашем случае число степеней свободы равно \(n-1\), так как одна степень свободы использована для расчета \(\bar{y}\) - оценки неизвестного математического ожидания \(\mu\) генеральной совокупности. В итоге получают обычную оценку для выборочной дисперсии: \[s^2=\frac{\sum_{i=1}^n(y_i-\bar{y})^2}{n-1},\] которая является несмещенной оценкой дисперсии \(\sigma^2\) для бесконечной выборки. Выборочную дисперсию также называют средним квадратичным, так как сумма квадратов делится на соответствующее число степеней свободы.

Логика построение оценки \(\sigma^2\) для простой регрессионной модели первого порядка аналогична сказанному выше. Во-первых следует вспомнить, что разные отклики \(Y_i\) имеют одинаковую дисперсию \(\sigma^2\), равную дисперсии ошибки \(\varepsilon_i\). Во-вторых, при расчете суммы квадратов отклонений необходимо учесть, что \(Y_i\) получены из разных распределений вероятностей с разными математическими ожиданиями, зависящими от \(x_i\). 

Следовательно, отклонения для наблюдений \(y_i\) необходимо рассчитывать относительно оценки их собственного математического ожидания \(\hat{y}_i\). Таким образом, это отклонение есть остаток \(y_i-\hat{y}_i=e_i\), а соответствующая сумма квадратов (обозначается SSE - сумма квадратов ошибки или остаточная сумма квадратов) равна:\[SSE=\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^ne_i^2.\]

Сумма квадратов SSE имеет \(n-2\) степени свободы, так как две степени свободы использованы для оценки \(\beta_0\) и \(\beta_1\) при расчете \(\hat{y}\). Следовательно, соответствующее среднее квадратичное ошибки (обозначается MSE) имеет вид: \[MSE=\frac{SSE}{n-2}=\frac{\sum_{i=1}^n(y_i-\hat{y}_i)^2}{n-2}=\frac{\sum_{i=1}^ne_i^2}{n-2}.\]

Может быть показано, что MSE является несмещенной оценкой \(\sigma^2\) для простой модели первого порядка. 

Арифметический корень \(\sqrt{MSE}\) является оценкой стандартного отклонения \(\sigma\), его значение (Residual standard error) приводится в результатах процедуры регрессионного анализа.

Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
и найдем оценку стандартного отклонения ошибки \(\varepsilon_i\):
fit <- lm(y ~ x)
summary(fit)

## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -83.876 -34.088  -5.982  38.826 103.528 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   62.366     26.177   2.382   0.0259 *  
## x              3.570      0.347  10.290 4.45e-10 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 48.82 on 23 degrees of freedom
## Multiple R-squared:  0.8215, Adjusted R-squared:  0.8138 
## F-statistic: 105.9 on 1 and 23 DF,  p-value: 4.449e-10

Таким образом, в рассматриваемом примере, имеем: \(SSE=MSE\cdot df=48.82^2\cdot23=54818.0252\).

Комментариев нет:

Отправить комментарий