Анализ данных и регрессия: Как разбить общую вариацию отклика на составляющие? (Дисперсионный анализ)

Подход, принятый в дисперсионном анализе, основан на разбиении сумм квадратов и степеней свободы ассоциированных с переменной откликом \(y\). Рассмотрим подробнее как это происходит в случай простой линейной модели.

Рис. 1

В качестве меры разброса для индивидуального наблюдения \(y_i\) удобно рассмотреть его отклонение от среднего значения по выборке \(\bar{y}\) (рис. 1A). В этом случае общая сумма квадратов всех таких отклонений SSTO (total sum of squares)\[SSTO=\sum(y_i-\bar{y})^2\] характеризует общую меру разброса присутствующего в данных. Если бы все наблюдения \(y_i\) были равны друг другу, то величина SSTO равнялась бы нулю, с увеличением разброса \(y_i\) значение SSTO также будет увеличиваться. Отметим, что величина SSTO не зависит от значений независимого переменного \(x\).

Когда значения регрессора принимаются в расчет, то разброс отражающий неопределенность отклика следует считать относительно регрессионной прямой \(\hat{y}\) (рис. 1B). В этом случае сумма квадратов всех таких отклонений - сумма квадратов ошибок SSE (error sum of squares)\[SSE=\sum(y_i-\hat{y}_i)^2\] характеризует общую меру разброса присутствующего в данных. Если бы все наблюдения \(y_i\) лежали бы на регрессионной прямой, то величина SSE равнялась бы нулю, с увеличением разброса \(y_i\) относительно регрессионной прямой значение SSE также будет увеличиваться.

Разность между SSTO и SSE (рис. 1C) называют регрессионной суммой квадратов SSR (regression sum of squares)\[SSR=\sum(\hat{y}_i-\bar{y})^2.\] Если прямая регрессии горизонтальна (константа), то величина SSR равна нулю \(\hat{y}_i-\bar{y}\equiv0\), иначе SSR будет больше нуля. Можно сказать, что SSR отражает ту часть вариации отклика \(y_i\), которая связана с построенной регрессионной прямой. Чем больше доля SSR в общей вариации SSTO тем больший вклад вносит регрессионная зависимость в общую вариацию отклика.

Таким образом, вариацию отклика \(y_i-\bar{y}\), рассчитанную без учета независимой переменной, можно разложить на две составляющей: отклонение оценки отклика \(\hat{y}_i\) от среднего значения \(\bar{y}\) и отклонение наблюдения \(y_i\) от оценки отклика \(\hat{y}_i\), то есть\[y_i-\bar{y}=(\hat{y}_i-\bar{y})+(y_i-\hat{y}_i).\]Интересный факт состоит в том, что суммы квадратов указанных отклонений также удовлетворяют похожему соотношению:\[SSTO=\sum(y_i-\bar{y})^2=SSR+SSE=\sum(\hat{y}_i-\bar{y})^2+\sum(y_i-\hat{y}_i)^2.\]

По аналогии с разбиением SSTO можно провести разбиение связанных с вариацией степеней свободы (df).

Для SSTO имеем \(n-1\) степень свободы, так как одна степень свободы утрачена при использовании выборочного среднего \(\bar{y}\) в качестве оценки для среднего генеральной совокупности.

Для SSE имеем \(n-2\) степень свободы, так как для получения оценки \(\hat{y}_i\) оценивается два параметра регрессии \(\beta_0\) и \(\beta_1\).

Для SSR имеет одну степень свободы. Несмотря на \(n\) отклонений \(\hat{y}_i-\bar{y}\), все значения \(\hat{y}_i\) рассчитаны исходя из одной и той же оценки регрессионной прямой, с которой связаны две степени свободы (соответственно для наклона и сдвига), одна из двух степеней свободы утрачена при использовании выборочного среднего \(\bar{y}\) в качестве оценки для среднего генеральной совокупности.

Отметим, что\[n-1=1+(n-2).\]

Сумма квадратов, деленное на соответствующее ей число степеней свободы, называется среднеквадратичным (mean square). Например, выборочная дисперсия является среднеквадратичным, так как сумма квадратов \(\sum(y_i-\bar{y})^2\) делится на \(n-1\) - число степеней свободы. По аналогии, среднеквадратичное регрессии равно\[MSR=\frac{SSR}{1}=SSR,\]среднеквадратичное ошибки равно\[MSE=\frac{SSE}{n-2}.\]

Соответствующие результаты расчетов обычно приводятся в ANOVA таблице. Рассмотрим данные:

x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)

y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)

для которых получим ANOVA таблицу:

> fit <- lm(y ~ x)

> anova(fit)

## Analysis of Variance Table

## Response: y

## Df Sum Sq Mean Sq F value Pr(>F)

## x 1 252378 252378 105.88 4.449e-10 ***

## Residuals 23 54825 2384

## ---

## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Таким образом, \(SSR=MSR=252378\), \(SSE=54825\), \(MSE=2384\).

Анализ данных и регрессия

суббота, 10 ноября 2018 г.

Как разбить общую вариацию отклика на составляющие? (Дисперсионный анализ)

Комментариев нет:

Отправить комментарий

суббота, 10 ноября 2018 г.

Как разбить общую вариацию отклика на составляющие? (Дисперсионный анализ)

Комментариев нет:

Отправить комментарий

суббота, 10 ноября 2018 г.