воскресенье, 16 декабря 2018 г.

Что такое коэффициент корреляции Пирсона? (Корреляционная модель)

Главной задачей при исследовании двумерной нормальной корреляционной модели является изучение связи двух переменных. Степень линейной зависимости переменных \(Y_1\) и \(Y_2\) можно выразить параметром \(\rho_{12}\), МП-оценка \(r_{12}\) которого находится по формуле: \[r_{12}=\frac{\sum(y_{i1}-\bar{y}_1)(y_{i2}-\bar{y}_2)}{\sqrt{\sum(y_{i1}-\bar{y}_1)^2\sum(y_{i2}-\bar{y}_2)^2}}.\] Коэффициент корреляции Пирсона \(r_{12}\) является (за исключением случаев когда \(\rho_{12}\) равно \(0\) или \(1\)) смещенной оценкой \(\rho_{12}\), правда смещение мало при больших значениях \(n\).

Можно показать, что \(-1\leq r_{12}\leq1\). В общем, значения \(r_{12}\) близкие к \(1\) показывают строгую прямую линейную зависимость, к \(-1\) - строгую обратную линейную зависимость, к \(0\) - отсутствие линейной зависимости между переменными \(Y_1\) и \(Y_2\).

В случае совместного двумерного нормального распределения переменных \(Y_1\) и \(Y_2\) равенство нулю коэффициента корреляции означает независимость \(Y_1\) и \(Y_2\). В этой связи целесообразно проверять нулевую гипотезу \(H_0:\rho_{12}=0\) против, например, альтернативы \(H_a:\rho_{12}\neq0\). Можно показать, что в условиях нулевой гипотезы, статистика\[t^*=\frac{r_{12}\sqrt{n-2}}{\sqrt{1-r^2_{12}}}\sim t(n-2)\]имеет \(t\)-распределение с \(n-2\) степенями свободы, то есть соответствующее правило для принятия решения при уровне значимости \(\alpha\) имеет вид: если \(|t^*|\leq t_{1-\alpha/2}(n-2)\), то верна гипотеза \(H_0\), иначе верна гипотеза \(H_a\).

Так как распределение статистики \(r_{12}\) при \(\rho_{12}\neq0\) довольно сложное, доверительный интервал для коэффициента корреляции обычно строят с помощью аппроксимации, основанной на \(Z\)-преобразовании Фишера:\[z'=\frac{1}{2}\ln\left(\frac{1+r_{12}}{1-r_{12}}\right).\]Когда объем выборки \(n\) большой (обычно \(25\) наблюдений и более) статистика \(z'\) имеет приблизительно нормальное распределение с параметрами\[E[z']=\zeta=\frac{1}{2}\ln\left(\frac{1+\rho_{12}}{1-\rho_{12}}\right),\]\[var[z']=\frac{1}{n-3}.\]

При тех же предположениях об объеме выборки (\(n\geq25\)), стандартизованная статистика \[\frac{z'-\zeta}{\sigma[z']}\sim N(0,1)\]имеет приближенно стандартное нормальное распределение. Отсюда \(1-\alpha\) доверительные границы для \(\zeta\) имеют вид:\[z'\pm z_{1-\alpha/2}\sigma[z'],\]где \(z_{1-\alpha/2}\) - квантиль уровня \(1-\alpha/2\) стандартного нормального распределения.

Соответствующие \(1-\alpha\) доверительные границы для \(\rho_{12}\) получаются с помощью обратного преобразования границ \(\zeta\):\[\rho_{12}=\frac{e^{2\zeta}-1}{e^{2\zeta}+1}.\]

Рассмотрим данные:
x <- c(44.4, 45.9, 41.9, 53.3, 44.7, 44.1, 50.7, 45.2, 60.1)
y <- c( 2.6,  3.1,  2.5,  5.0,  3.6,  4.0,  5.2,  2.8,  3.8)
и проведем для них анализ согласно изложенной теории:
> cor.test(x, y, method = "pearson", alternative = "two.sided")

## Pearson's product-moment correlation
## 
## data:  x and y
## t = 1.8411, df = 7, p-value = 0.1082
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1497426  0.8955795
## sample estimates:
##      cor 
## 0.5711816 
Таким образом, значение коэффициента корреляции Пирсона равно \(r_{12}=0.5711816\), нулевую гипотезу \(H_0:\rho=0\) отвергнуть нельзя: \(t^*=1.8411\), \(p-value=0.1082>0.05\). Доверительный интервал \([-0.1497426, 0.8955795]\), построенный для коэффициента корреляции с помощью \(Z\)-преобразования Фишера - широкий, включает значение нуль.

Как обычно, построенный доверительный интервал для коэффициента корреляции можно использовать для проверки равенства \(\rho_{12}\) заданному значению, например \(-0.5\), смотря по тому попадает или нет выбранное число внутрь доверительных границ.

Комментариев нет:

Отправить комментарий