В регрессионной модели с нормальной ошибкой предполагается, что значения независимой переменной \(x\) являются известными константами. Поэтому при моделировании, например, доверительных интервалов, последние строятся при одних и тех же значениях \(x_i\). Однако такой подход не всегда оправдан. Рассмотрим, например, зависимость объема продаж крема для загара от средней дневной температуры. Здесь исследователь не может контролировать дневную температуру и использовать одинаковые значения регрессора при повторных выборках не целесообразно. В качестве другого примера можно рассмотреть зависимость между "рост человека" и "вес человека" взятых по выборке людей - здесь обе переменные выбираются случайно. Задачи подобного рода лучше решаются в рамках корреляционных моделей.
Пусть даны две нормально распределенные случайные величины \(Y_1\sim N(\mu_1,\sigma_1)\) и \(Y_2\sim N(\mu_2,\sigma_2)\) с двумерным нормальным законом распределения, зависящим от пяти параметров: \(\mu_1\), \(\mu_2\), \(\sigma_1\), \(\sigma_2\), \(\rho_{12}\), где \(\rho_{12}\) - коэффициент корреляции между \(Y_1\) и \(Y_2\), равный \[\rho_{12}=\frac{\mbox{cov}[Y_1, Y_2]}{\sigma_1,\sigma_2}=\frac{E[(Y_1-\mu_1)(Y_2-\mu_2)]}{\sigma_1\sigma_2}.\]Отметим, что \(\mbox{cov}[Y_1,Y_2]\equiv\mbox{cov}[Y_2,Y_1]\) и, следовательно, \(\rho_{12}\equiv\rho_{21}\).
Если \(Y_1\) и \(Y_2\) независимы, то \(\mbox{cov}[Y_1,Y_2]=0\) и \(\rho_{12}=0\). Если \(Y_1\) и \(Y_2\) положительно коррелированы, то есть с увеличением/уменьшением первой переменной увеличивается/уменьшается вторая, то \(\mbox{cov}[Y_1,Y_2]>0\) и \(\rho_{12}>0\). Если \(Y_1\) и \(Y_2\) отрицательно коррелированы, то есть с увеличением/уменьшением первой переменной уменьшается/увеличивается вторая, то \(\mbox{cov}[Y_1,Y_2]<0\) и \(\rho_{12}<0\). Коэффициент корреляции принимает любые значения из промежутка \([-1,1]\), он равен \(1\) при прямой линейной зависимости и \(-1\) при обратной линейной зависимости.
Главным назначением двумерной корреляционной модели является получение условного статистического вывода об одной переменной при заданном значении второй переменной. Такой вывод возможен с привлечением условной плотности распределения. Условная плотность распределения случайной величины \(Y_1\) для любого заданного значения нормально распределенной случайной величины \(Y_2\) с математическим ожиданием \(\alpha_{1|2}+\beta_{12}y_2\) и стандартным отклонением \(\sigma_{1|2}\) имеет вид:\[f(y_1|y_2)=\frac{1}{\sqrt{2\pi}\sigma_{1|2}}\mbox{exp}\left[-\frac{1}{2}\left(\frac{y_1-\alpha_{1|2}-\beta_{12}y_2}{\sigma_{1|2}}\right)^2\right],\]где параметры \(\alpha_{1|2}\), \(\beta_{12}\) и \(\sigma_{1|2}\) - функции параметров двумерной плотности распределения:\[\alpha_{1|2}=\mu_1-\mu_2\rho_{12}\frac{\sigma_1}{\sigma_2}\]\[\beta_{12}=\rho_{12}\frac{\sigma_1}{\sigma_2}\]\[\sigma_{1|2}^2=\sigma_1^2(1-\rho_{12}^2).\] Параметры \(\alpha_{1|2}\) и \(\beta_{12}\) - это сдвиг и наклон соответствующей регрессионной прямой. Условную плотность \(f(y_2|y_1)\) легко получить по аналогии.
Таким образом, условное распределение \(Y_1\) является нормальным, с математическим ожиданием \(E(Y_1|Y_2=y_2)=\alpha_{1|2}+\beta_{12}y_2\) в виде линейной функции от \(y_2\) и постоянным стандартным отклонением \(\sigma_{1|2}\), что полностью подходит под описание линейной регрессионной модели с нормальной ошибкой.
Следовательно, в случае двумерного нормального распределения системы случайных величин \((Y_1,Y_2)\) можно использовать аппарат простой линейной регрессии для построения рассмотренных ранее оценок, а также доверительных и предсказательных интервалов.
Следовательно, в случае двумерного нормального распределения системы случайных величин \((Y_1,Y_2)\) можно использовать аппарат простой линейной регрессии для построения рассмотренных ранее оценок, а также доверительных и предсказательных интервалов.
Комментариев нет:
Отправить комментарий