четверг, 27 сентября 2018 г.

Как оценить коэффициенты регрессии по МНК? (Линейная регрессия)

Рассмотрим как получить оценку коэффициентов регрессии \(\beta_0\) и \(\beta_1\) для простой модели первого порядка методом наименьших квадратов (МНК).

Для каждой пары наблюдений \((x_i,y_i)\) найдем отклонение \(y_i\) от его математического ожидания \(y_i-(\beta_0+\beta_1x_i)\) и сосчитаем сумму \(Q\) квадратов полученных значений: \[Q=\sum\limits_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2.\] Согласно МНК оценками коэффициентов регрессии \(\beta_0\) и \(\beta_1\) являются числа \(b_0\) и \(b_1\), которые минимизируют критерий \(Q\) по имеющимся выборочным данным \((x_1,y_1)\), \((x_2,y_2)\), \(\ldots\), \((x_n,y_n)\).

Рассмотрим набор данных:
x <- c(20, 55, 30);
y <- c(5, 12, 10);
Рисунок 1а
На диаграмме рассеяния (рис. 1a) представлена регрессионная прямая в которой в качестве предиктора используется среднее арифметическое \(\bar{y}\) значений отклика: \[\hat{y}=9.0+0\cdot x,\] здесь \(b_0=9.0\), \(b_1=0\), \(\hat{y}\) - оценка ординаты регрессионной прямой.

Данная прямая не является хорошей оценкой, так как ординаты двух наблюдений \((20,5)\) и \((55,12)\) сильно отстоят от линии. Сумма квадратов отклонений равна: \[Q=(5-9.0)^2+(12-9.0)^2+(10-9.0)^2=26.0.\]
Рисунок 1б
На диаграмме рассеяния (рис. 1б) показаны те же данные с регрессионной прямой вида \[\hat{y}=2.81+0.177\cdot x.\] Оценка с помощью данной прямой намного лучше и критерий \(Q\) в этом случае существенно меньше: \[Q=(5-6.35)^2+(12-12.55)^2+(10-8.12)^2=5.7.\]

Оценка коэффициентов регрессии может быть найдена численным методом или, в случае простой регрессионной модели, аналитически. Для простой модели первого порядка значения \(b_0\) и \(b_1\), минимизирующие \(Q\) по данным выборки, находятся из так называемой системы нормальных уравнений и имеют вид: \[b_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2},\] \[b_0=\frac{1}{n}\left(\sum y_i-b_1\sum x_i\right)=\bar{y}-b_1\bar{x},\] здесь \(\bar{x}\) и \(\bar{y}\) - средние арифметические \(x_i\) и \(y_i\) соответственно. Расчет коэффициентов обычно ведется с большим числом десятичных знаков для достижения большей точности.

Приведем основные свойства МНК-оценок коэффициентов регрессии для простой модели первого порядка:
  1. Оценки \(b_0\) и \(b_1\) являются несмещенными (отсутствует тенденция к переоценки или недооценки соответствующих параметров), то есть \[E(b_0)=\beta_0,~~~E(b_1)=\beta_1.\]
  2. Оценки \(b_0\) и \(b_1\) имеют наибольшую точность (их выборочное распределение имеет наименьшую дисперсию) по сравнению с любыми другими оценками в классе несмещенных оценок, являющихся линейными функциями наблюдений \(y_1\), \(\ldots\), \(y_n\).
Рассмотрим набор данных:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70);
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323);
и найдем оценку для коэффициентов регрессии:
mydata <- data.frame(x, y);
fit <- lm(mydata$y ~ mydata$x);
summary(fit)

## Call:
## lm(formula = mydata$y ~ mydata$x)
## ## Residuals:
##     Min      1Q  Median      3Q     Max 
## -83.876 -34.088  -5.982  38.826 103.528 
## ## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   62.366     26.177   2.382   0.0259 *  
## mydata$x       3.570      0.347  10.290 4.45e-10 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## ## Residual standard error: 48.82 on 23 degrees of freedom
## Multiple R-squared:  0.8215, Adjusted R-squared:  0.8138 
## F-statistic: 105.9 on 1 and 23 DF,  p-value: 4.449e-10
Представленный фрагмент кода на языке R содержит результаты регрессионной обработки данных. Коэффициенты регрессии находятся в столбце Estimate, равны \(b_0=62.366\), \(b_1=3.570\) и соответствуют уравнению прямой \(\hat{y}=62.366+3.570x\).
Рисунок 2

На диаграмме рассеяния данных (рис. 2) изображена найденная регрессионная зависимость.

Комментариев нет:

Отправить комментарий