Для того, чтобы принять статистическое решение на основании данных дисперсионного анализа необходимо знать чему равны математические ожидания среднеквадратичных величин. Статистическая теория дает следующий результат: \[E[MSE]=\sigma^2\](результат совпадает с полученным ранее, согласно которому MSE является несмещенной оценкой дисперсии \(\sigma^2\))\[E[MSR]=\sigma^2+\beta_1^2\sum(x_i-\bar{x})^2\]
В этой связи отметим следующее.
Во-первых, математическое ожидание выборочного распределения MSE равно \(\sigma^2\) независимо от того являются или нет переменные \(x\) и \(y\) линейно зависимыми, то есть равен нулю или нет коэффициент \(\beta_1\).
Во-вторых, математическое ожидание выборочного распределения MSR также равно \(\sigma^2\), когда \(\beta_1=0\), то есть параметры положения выборочных распределений MSR и MSE приблизительно равны. Если \(\beta_1\neq0\), то величина \(\beta_1^2\sum(x_i-\bar{x})^2\) будет больше нуля и, следовательно, среднее выборочного распределения MSR находится правее среднего выборочного распределения MSE, то есть MSR имеет тенденцию превышать MSE.
Таким образом, сравнивая значения MSR и MSE можно проверить гипотезу о равенстве нулю коэффициента \(\beta_1\). Если они имеют приблизительно равную величину, то \(\beta_1=0\), если MSR существенно превышает MSE, то \(\beta_1\neq0\).
В случае простой линейной регрессионной модели средствами дисперсионного анализа можно проверить нулевую гипотезу \(H_0:\beta_1=0\) против альтернативы \(H_a:\beta_1\neq0\) с помощью \(F^{\;*}\)статистики \[F^{\;*}=\frac{MSR}{MSE}.\]Рассмотренное выше рассуждение, позволяет сделать вывод в пользу гипотезы \(H_a\) при больших значениях \(F^{\;*}\) и в пользу гипотезы \(H_0\) при значениях \(F^{\;*}\) близких к единице. Другими словами, мы имеем дело с правосторонним тестом.
Можно показать, что статистика \[F^{\;*}=\frac{\frac{SSR}{\sigma^2}}{1}\div\frac{\frac{SSE}{\sigma^2}}{n-2}=\frac{MSR}{MSE}\] в условиях нулевой гипотезы \(H_0\) (\(\beta_1=0\)) имеет \(F(1,n-2)\) распределение:\[F^{\;*}\sim\frac{\chi^2(1)}{1}\div\frac{\chi^2(n-2)}{n-2}=F(1,n-2).\]В условиях альтернативной гипотезы \(H_a\) статистика \(F^{\;*}\) имеет более сложное распределение, а именно нецентрированное \(F\) распределение.
Так как тест является правосторонним, то решающее правило можно сформулировать следующим образом: если значение \(F^{\;*}\leq F_{1-\alpha}(1,n-2)\), то принимаем гипотезу \(H_0\), иначе принимаем гипотезу \(H_a\). Здесь риск ошибки первого рода контролируется с помощью уровня значимости \(\alpha\), а \(F_{1-\alpha}(1,n-2)\) - соответствующий квантиль \(F\) распределения.
Рассмотрим данные и построим линейную регрессию для них:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70)
y <- c(399, 121, 221, 376, 361, 224, 546, 352, 353, 157, 160, 252, 389, 113, 435, 420, 212, 268, 377, 421, 273, 468, 244, 342, 323)
> fit <- lm(y ~ x)
Пусть уровень значимости равен \(\alpha=0.05\). Так как \(n=25\), найдем квантиль \(F(0.95,1,23)\)
> qf(0.95, 1, 23)
## [1] 4.279344
и построим ANOVA таблицу:
> anova(fit)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 252378 252378 105.88 4.449e-10 ***
## Residuals 23 54825 2384
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Так как \(F^{\;*}=105.88>4.279344\), то можно заключить, что верна гипотеза \(H_a\) и существует линейная зависимость между переменными \(x\) и \(y\). В ANOVA таблице также найдено чрезвычайно малое значение p-value \(P\{F(1,23)>105.88\}=4.449\cdot10^{-10}\), что также означает несовместимость данных с предположением о равенстве нулю коэффициента регрессии \(\beta_1\).
В заключении отметим, что для выбранного уровня значимости \(\alpha\) соответствующий \(F\)-тест для \(\beta_1=0\) против альтернативы \(\beta_1\neq0\) алгебраически эквивалентен двустороннему \(t\)-тесту на значимость коэффициента наклона регрессии \(\beta_1\), а именно: \(F^{\;*}=(t^*)^2\). При этом, \(t\)-тест более универсален, так как с его помощью можно рассматривать односторонние альтернативы, включая \(\beta_1(\leq\geq)0\) против \(\beta_1(><)0\), что с помощью \(F\)-тест сделать нельзя.
Комментариев нет:
Отправить комментарий