Подход, принятый в дисперсионном анализе, основан на разбиении сумм квадратов и степеней свободы ассоциированных с переменной откликом \(y\). Рассмотрим подробнее как это происходит в случай простой линейной модели.
![]() |
Рис. 1 |
В качестве меры разброса для индивидуального наблюдения \(y_i\) удобно рассмотреть его отклонение от среднего значения по выборке \(\bar{y}\) (рис. 1A). В этом случае общая сумма квадратов всех таких отклонений SSTO (total sum of squares)\[SSTO=\sum(y_i-\bar{y})^2\] характеризует общую меру разброса присутствующего в данных. Если бы все наблюдения \(y_i\) были равны друг другу, то величина SSTO равнялась бы нулю, с увеличением разброса \(y_i\) значение SSTO также будет увеличиваться. Отметим, что величина SSTO не зависит от значений независимого переменного \(x\).
Когда значения регрессора принимаются в расчет, то разброс отражающий неопределенность отклика следует считать относительно регрессионной прямой \(\hat{y}\) (рис. 1B). В этом случае сумма квадратов всех таких отклонений - сумма квадратов ошибок SSE (error sum of squares)\[SSE=\sum(y_i-\hat{y}_i)^2\] характеризует общую меру разброса присутствующего в данных. Если бы все наблюдения \(y_i\) лежали бы на регрессионной прямой, то величина SSE равнялась бы нулю, с увеличением разброса \(y_i\) относительно регрессионной прямой значение SSE также будет увеличиваться.
Разность между SSTO и SSE (рис. 1C) называют регрессионной суммой квадратов SSR (regression sum of squares)\[SSR=\sum(\hat{y}_i-\bar{y})^2.\] Если прямая регрессии горизонтальна (константа), то величина SSR равна нулю \(\hat{y}_i-\bar{y}\equiv0\), иначе SSR будет больше нуля. Можно сказать, что SSR отражает ту часть вариации отклика \(y_i\), которая связана с построенной регрессионной прямой. Чем больше доля SSR в общей вариации SSTO тем больший вклад вносит регрессионная зависимость в общую вариацию отклика.
Таким образом, вариацию отклика \(y_i-\bar{y}\), рассчитанную без учета независимой переменной, можно разложить на две составляющей: отклонение оценки отклика \(\hat{y}_i\) от среднего значения \(\bar{y}\) и отклонение наблюдения \(y_i\) от оценки отклика \(\hat{y}_i\), то есть\[y_i-\bar{y}=(\hat{y}_i-\bar{y})+(y_i-\hat{y}_i).\]Интересный факт состоит в том, что суммы квадратов указанных отклонений также удовлетворяют похожему соотношению:\[SSTO=\sum(y_i-\bar{y})^2=SSR+SSE=\sum(\hat{y}_i-\bar{y})^2+\sum(y_i-\hat{y}_i)^2.\]
По аналогии с разбиением SSTO можно провести разбиение связанных с вариацией степеней свободы (df).
Для SSTO имеем \(n-1\) степень свободы, так как одна степень свободы утрачена при использовании выборочного среднего \(\bar{y}\) в качестве оценки для среднего генеральной совокупности.
Для SSE имеем \(n-2\) степень свободы, так как для получения оценки \(\hat{y}_i\) оценивается два параметра регрессии \(\beta_0\) и \(\beta_1\).
Для SSR имеет одну степень свободы. Несмотря на \(n\) отклонений \(\hat{y}_i-\bar{y}\), все значения \(\hat{y}_i\) рассчитаны исходя из одной и той же оценки регрессионной прямой, с которой связаны две степени свободы (соответственно для наклона и сдвига), одна из двух степеней свободы утрачена при использовании выборочного среднего \(\bar{y}\) в качестве оценки для среднего генеральной совокупности.
Отметим, что\[n-1=1+(n-2).\]
Сумма квадратов, деленное на соответствующее ей число степеней свободы, называется среднеквадратичным (mean square). Например, выборочная дисперсия является среднеквадратичным, так как сумма квадратов \(\sum(y_i-\bar{y})^2\) делится на \(n-1\) - число степеней свободы. По аналогии, среднеквадратичное регрессии равно\[MSR=\frac{SSR}{1}=SSR,\]среднеквадратичное ошибки равно\[MSE=\frac{SSE}{n-2}.\]
Соответствующие результаты расчетов обычно приводятся в ANOVA таблице. Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
для которых получим ANOVA таблицу:
> fit <- lm(y ~ x)
> anova(fit)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 252378 252378 105.88 4.449e-10 ***
## Residuals 23 54825 2384
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Таким образом, \(SSR=MSR=252378\), \(SSE=54825\), \(MSE=2384\).
Комментариев нет:
Отправить комментарий