понедельник, 19 ноября 2018 г.

В чем состоит общий подход к тестированию линейных моделей? (Дисперсионный анализ)

Рассмотренный в терминах дисперсионного анализа тест на равенство нулю коэффициента регрессии \(\beta_1\) против альтернативы \(\beta_1\neq0\) является примером общего подхода к тестированию линейных статистических моделей. Рассмотрим суть данного подхода упрощенно, на примере простой линейной регрессионной модели.

На первом этапе выбирают соответствующую экспериментальным данным полную (неограниченную) регрессионную модель. В случае простой линейной регрессии - это простая линейная регрессионная модель с нормальной ошибкой \[Y_i=\beta_0+\beta_1x_i+\varepsilon_i.\]Полная модель строится по методу МНК или по методу ММП для исходных данных и затем находится сумма квадратов ошибки, то есть сумма квадратов отклонений наблюдений \(y_i\) от соответствующих им значений \(\hat{y}_i\). Обозначим эту сумму \(SSE(F)\) (от англ. Full model - полная модель):\[SSE(F)=\sum(y_i-(b_0+b_1x_i))^2=\sum(y_i-\hat{y}_i)^2=SSE,\]то есть для полной модели \(SSE(F)=SSE\) - характеристики разброса \(y_i\) относительно построенной регрессионной прямой.

На втором этапе рассматриваются гипотезы \(H_0:\beta_1=0\), \(H_a:\beta_1\neq0\). Модель, для которой справедлива гипотеза \(H_0\) называется уменьшенной (ограниченной) моделью. В случае простой линейной регрессии, имеем:\[Y_i=\beta_0+\varepsilon_i.\]Уменьшенная модель строится по методу МНК или по методу ММП для исходных данных и затем находится сумма квадратов ошибки \(SSE(R)\) (от англ. Reduced model - уменьшенная модель). В случае простой линейной модели МНК-оценка и МП-оценка коэффициента \(\beta_0\) совпадают и равны \(\bar{y}\), откуда \[SSE(R)=\sum(y_i-b_0)^2=\sum(y_i-\bar{y})^2=SSTO.\]

На третьем этапе логично сравнить две суммы квадратов \(SSE(F)\) и \(SSE(R)\). Можно показать, что \(SSE(F)\) никогда не превосходит \(SSE(R)\), то есть \(SSE(F)\leq SSE(R)\). Причиной этого является тот факт, что чем больше параметров в модели, тем она лучше описывает данные и тем меньше вариация данных относительно регрессионной функции.

Когда \(SSE(F)\) немногим меньше \(SSE(R)\), то использование полной модели незначительно уменьшает вариацию в отклике по сравнению с ограниченной моделью и последнюю можно считать адекватно описывающей данные. Таким образом, небольшая разность \(SSE(R)-SSE(F)\) указывает в пользу нулевой гипотезы \(H_0\), в то время как большая разность указывает в пользу альтернативной гипотезы \(H_a\), так как учтенный параметр модели помог существенно снизить вариацию наблюдений \(y_i\) относительно найденной регрессионной зависимости.

Для разности \(SSE(R)-SSE(F)\) актуальной статистикой является:\[F^{\,*}=\frac{SSE(R)-SSE(F)}{df_R-df_F}\div\frac{SSE(F)}{df_F},\]которая имеет F-распределение в условиях нулевой гипотезы \(H_0\). Степени свободы \(df_R\) и \(df_F\) соответствуют степеням свободы сумм квадратов ошибки в уменьшенной и полной моделях. Большие значения \(F^{\,*}\) свидетельствуют в пользу альтернативной гипотезы \(H_a\). Таким образом, решающее правило может быть сформулировано так: если \(F^{\,*}\leq F(1-\alpha,df_R-df_F,df_F)\), то выбрать гипотезу \(H_0\), иначе выбрать гипотезу \(H_a\).

Для теста равенства нулю коэффициента \(\beta_1\) имеем: \(SSE(R)=SSTO\) и \(df_R=n-1\), \(SSE(F)=SSE\) и \(df_F=n-2\), откуда:\[F^{\,*}=\frac{SSTO-SSE}{(n-1)-(n-2)}\div\frac{SSE}{n-2}=\frac{SSR}{1}\div\frac{SSE}{n-2}=\frac{MSR}{MSE},\]что соответствует статистике \(F^{\,*}\), найденной в дисперсионном анализе.

В заключении повторим три основных шага тестирования линейной статистической модели:
  1. Построить полную регрессионную модель и получить сумму квадратов \(SSE(F)\).
  2. Построить уменьшенную модель в условиях нулевой гипотезы \(H_0\) и получить сумму квадратов \(SSE(R)\).
  3. Рассчитать статистику \(F^{\,*}\) и принять статистическое решение о значимости коэффициента регрессии.


Комментариев нет:

Отправить комментарий