В статье о разбиении вариации отклика на составляющие было показано, что \(SSTO\) отражает вариацию в наблюдениях \(y_i\) без учета значений независимого переменного \(x\). В то же время \(SSE\) отражает вариацию в наблюдениях \(y_i\) в случае, когда значения предиктора \(x\) приняты в расчет. Поэтому естественно меру вклада переменной \(x\) в снижение вариации отклика \(y\) выразить отношением разности \(SSTO-SSE=SSR\) к общей вариации:\[R^2=\frac{SSR}{SSTO}=1-\frac{SSE}{SSTO}.\]Коэффициент \(R^2\) называется коэффициентом детерминации и, так как \(0\leq SSE\leq SSTO\), то \(0\leq R^2\leq 1\). Чем больше значение \(R^2\), тем большая доля в общей вариации отклика снижена за счет использования переменной \(x\).
Предельные значения \(R^2\) принимает в следующих случаях:
- Если все наблюдения принадлежат регрессионной прямой, то \(SSE=0\) и \(R^2=1\). В этом случае предиктор \(x\) полностью объясняет вариацию в наблюдениях \(y_i\).
- Если построенная регрессионная прямая является константой (горизонтальна), так что \(b_1=0\) и \(\hat{y}_i=\bar{y}\), то \(SSE=SSTO\) и \(R^2=0\). В этом случае связь между переменными \(x\) и \(y\) в выборочных данных отсутствует и предиктор \(x\) никак не ограничивает вариацию наблюдений \(y_i\).
На практике \(R^2\) редко принимает значения равные в точности \(0\) или \(1\), а находится где-то между этими границами. Принято говорить, что чем ближе значение коэффициента детерминации к единице, тем сильнее линейная зависимость между переменными \(x\) и \(y\).
Рассмотрим данные и построим регрессионную прямую для них:
Рассмотрим данные и построим регрессионную прямую для них:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
> fit <- lm(y ~ x)
> summary(fit)
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -83.876 -34.088 -5.982 38.826 103.528
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 62.366 26.177 2.382 0.0259 *
## x 3.570 0.347 10.290 4.45e-10 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 48.82 on 23 degrees of freedom
## Multiple R-squared: 0.8215, Adjusted R-squared: 0.8138
## F-statistic: 105.9 on 1 and 23 DF, p-value: 4.449e-10
Несмотря на свою простоту количественная интерпретация коэффициента детерминации может привести к ошибочным выводам. Рассмотрим основные из них.
- "Большое значение \(R^2\) позволяет сделать по данным точный прогноз." Это не всегда верно. В рассмотренном примере коэффициент детерминации был высоким (\(R^2=0.8215\)). Однако предсказательный интервал для отклика при \(x=100\) довольно широкий (\([332.2072, 506.5649]\)), данная точность не позволяет принять эффективное решение относительно прогнозируемого значения отклика. Ошибочное суждение возникает из-за того, что \(R^2\) отражает степень снижения общей доли вариации \(SSTO\) и не содержит никакой информации об абсолютной точности оценки математического ожидания отклика или прогнозируемого значения отклика.
- "Большое значение \(R^2\) позволяет говорить о том, что оценка данных прямой является оптимальный." Это не всегда верно, так как истинная зависимость может быть криволинейной.
- "Близкий к нулю коэффициент детерминации свидетельствует об отсутствии зависимости между переменными \(x\) и \(y\)". Это не всегда верно, так как переменные могут иметь строгую (например, квадратичную) зависимость.
В заключении отметим, что в регрессионной модели нет параметра, оценкой которого является коэффициент детерминации \(R^2\) - это лишь описательная характеристика степени линейной зависимости между двумя наборами данных \(x\) и \(y\).
Комментариев нет:
Отправить комментарий