воскресенье, 18 ноября 2018 г.

Как проверить значимость регрессии по ANOVA данным? (Дисперсионный анализ)

Для того, чтобы принять статистическое решение на основании данных дисперсионного анализа необходимо знать чему равны математические ожидания среднеквадратичных величин. Статистическая теория дает следующий результат: \[E[MSE]=\sigma^2\](результат совпадает с полученным ранее, согласно которому MSE является несмещенной оценкой дисперсии \(\sigma^2\))\[E[MSR]=\sigma^2+\beta_1^2\sum(x_i-\bar{x})^2\]

В этой связи отметим следующее. 

Во-первых, математическое ожидание выборочного распределения MSE равно \(\sigma^2\) независимо от того являются или нет переменные \(x\) и \(y\) линейно зависимыми, то есть равен нулю или нет коэффициент \(\beta_1\). 

Во-вторых, математическое ожидание выборочного распределения MSR также равно \(\sigma^2\), когда \(\beta_1=0\), то есть параметры положения выборочных распределений MSR и MSE приблизительно равны. Если \(\beta_1\neq0\), то величина \(\beta_1^2\sum(x_i-\bar{x})^2\) будет больше нуля и, следовательно, среднее выборочного распределения MSR находится правее среднего выборочного распределения MSE, то есть MSR имеет тенденцию превышать MSE.

Таким образом, сравнивая значения MSR и MSE можно проверить гипотезу о равенстве нулю коэффициента \(\beta_1\). Если они имеют приблизительно равную величину, то \(\beta_1=0\), если MSR существенно превышает MSE, то \(\beta_1\neq0\).

В случае простой линейной регрессионной модели средствами дисперсионного анализа можно проверить нулевую гипотезу \(H_0:\beta_1=0\) против альтернативы \(H_a:\beta_1\neq0\) с помощью \(F^{\;*}\)статистики \[F^{\;*}=\frac{MSR}{MSE}.\]Рассмотренное выше рассуждение, позволяет сделать вывод в пользу гипотезы \(H_a\) при больших значениях \(F^{\;*}\) и в пользу гипотезы \(H_0\) при значениях \(F^{\;*}\) близких к единице. Другими словами, мы имеем дело с правосторонним тестом.

Можно показать, что статистика \[F^{\;*}=\frac{\frac{SSR}{\sigma^2}}{1}\div\frac{\frac{SSE}{\sigma^2}}{n-2}=\frac{MSR}{MSE}\] в условиях нулевой гипотезы \(H_0\) (\(\beta_1=0\)) имеет \(F(1,n-2)\) распределение:\[F^{\;*}\sim\frac{\chi^2(1)}{1}\div\frac{\chi^2(n-2)}{n-2}=F(1,n-2).\]В условиях альтернативной гипотезы \(H_a\) статистика \(F^{\;*}\) имеет более сложное распределение, а именно нецентрированное \(F\) распределение.

Так как тест является правосторонним, то решающее правило можно сформулировать следующим образом: если значение \(F^{\;*}\leq F_{1-\alpha}(1,n-2)\), то принимаем гипотезу \(H_0\), иначе принимаем гипотезу \(H_a\). Здесь риск ошибки первого рода контролируется с помощью уровня значимости \(\alpha\), а \(F_{1-\alpha}(1,n-2)\) - соответствующий квантиль \(F\) распределения.

Рассмотрим данные и построим линейную регрессию для них:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
> fit <- lm(y ~ x)
Пусть уровень значимости равен \(\alpha=0.05\). Так как \(n=25\), найдем квантиль \(F(0.95,1,23)\)
> qf(0.95, 1, 23)
## [1] 4.279344
и построим ANOVA таблицу:
> anova(fit)

## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x          1 252378  252378  105.88 4.449e-10 ***
## Residuals 23  54825    2384                      
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Так как \(F^{\;*}=105.88>4.279344\), то можно заключить, что верна гипотеза \(H_a\) и существует линейная зависимость между переменными \(x\) и \(y\). В ANOVA таблице также найдено чрезвычайно малое значение p-value \(P\{F(1,23)>105.88\}=4.449\cdot10^{-10}\), что также означает несовместимость данных с предположением о равенстве нулю коэффициента регрессии \(\beta_1\).

В заключении отметим, что для выбранного уровня значимости \(\alpha\) соответствующий \(F\)-тест для \(\beta_1=0\) против альтернативы \(\beta_1\neq0\) алгебраически эквивалентен двустороннему \(t\)-тесту на значимость коэффициента наклона регрессии \(\beta_1\), а именно: \(F^{\;*}=(t^*)^2\). При этом, \(t\)-тест более универсален, так как с его помощью можно рассматривать односторонние альтернативы, включая \(\beta_1(\leq\geq)0\) против \(\beta_1(><)0\), что с помощью \(F\)-тест сделать нельзя.

Комментариев нет:

Отправить комментарий