понедельник, 17 декабря 2018 г.

Что такое коэффициент корреляции Спирмена? (Корреляционная модель).

Часто совместное двумерное распределение вероятностей случайных величин \(Y_1\) и \(Y_2\) существенно отличается от нормального. В этом случае можно попытаться преобразовать переменные таким образом, чтобы их двумерное совместное распределение стало приблизительно нормальным и затем использовать коэффициент корреляции Пирсона для оценки параметра \(\rho_{12}\).

Если подходящее преобразование не найдено, то для оценки связи между \(Y_1\) и \(Y_2\) можно использовать оценку, известную как непараметрический коэффициент ранговой корреляции Спирмена \(r_s\). Для его расчета значения переменных \(y_{i1}\) и \(y_{i2}\) преобразуются в ранги \(r_{i1}\) и \(r_{i2}\), то есть упорядочиваются по возрастанию и заменяются на свои порядковые номера (при этом равным значениям присваиваются усредненные номера, так называемые связанные ранги) и затем рассчитывается обычный коэффициент корреляции Пирсона, только основанный на рангах:\[r_s=\frac{\sum(r_{i1}-\bar{r}_{1})(r_{i2}-\bar{r}_{2})}{\sqrt{\sum(r_{i1}-\bar{r}_{1})^2\sum(r_{i2}-\bar{r}_{2})^2}},\]здесь \(\bar{r}_1\), \(\bar{r}_2\) - средние арифметические рангов \(r_{i1}\) и \(r_{i2}\). Ясно, что в случае рангов \(\bar{r}_1=\bar{r}_2=(n+1)/2\).

Коэффициент корреляции Спирмена принимает одно из значений между \(-1\) и \(1\) включительно. Коэффициент \(r_s\) равен \(1\) когда ранги переменной \(y_{i1}\) идентичны соответствующим рангам переменной \(y_{i2}\) (наблюдаются пары вида \((1,1)\), \((2,2)\) и т. д.), то есть имеет место совершенное совпадение рангов двух переменных; \(r_s\) равен \(-1\), когда ранги \(y_{i1}\) полностью противоположны соответствующим рангам \(y_{i2}\) (наблюдаются пары вида \((1,n)\), \((2,n-1)\) и т. д.), то есть имеет место полная противоположность рангов двух переменных; в случае малой упорядоченности между рангами наблюдений \(y_{i1}\) и \(y_{i2}\) коэффициент Спирмена принимает значения близкие к нулю.

Коэффициент корреляции Спирмена можно использовать для тестирования альтернативы \(H_0:\) - "нет связи между \(Y_1\) и \(Y_2\)", \(H_a:\) - "есть связь между \(Y_1\) и \(Y_2\)". В случае двустороннего теста \(H_a\) подразумевает оба (положительную и отрицательную) типа связи. Когда гипотеза \(H_a\) имеет вид: "существует положительная (отрицательная) связь между \(Y_1\) и \(Y_2\)" следует использовать правостороннюю (левостороннюю) альтернативу.

Распределение вероятностей \(r_s\) при условии нулевой гипотезы \(H_0\) получается исходя из того, что для любого ранжирования \(y_{i1}\) при условии отсутствия связи между \(Y_1\) и \(Y_2\) все ранжирования \(y_{i2}\) равновероятны. Когда размер выборки \(n\) больше \(10\) для приближенного тестирования нулевой гипотезы используют статистику:\[t^*=\frac{r_s\sqrt{n-2}}{\sqrt{1-r_s^2}}\sim t(n-2),\] имеющую \(t\)-распределение с \(n-2\) степенями свободы

Рассмотрим данные:
y1 <- c(29, 435, 86, 1090, 219, 503, 47, 3524, 185, 98, 952, 89)
y2 <- c(127, 214, 133, 208, 153, 184, 130, 217, 141, 154, 194, 103)
и проведем для них анализ согласно изложенной теории:
> rank(y1)
## [1]  1  8  3 11  7  9  2 12  6  5 10  4
> rank(y2)
## [1]  2 11  4 10  6  8  3 12  5  7  9  1
> cor.test(
  y1,
  y2,
  method = "spearman",
  exact = FALSE,
  alternative = "two.sided",
  conf.level = 0.9
)
## 
##  Spearman's rank correlation rho
## 
## data:  y1 and y2
## S = 30, p-value = 8.367e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8951049 
Рассмотрим результаты: параметр \(S\) равен сумме квадратов разностей рангов, значение коэффициента корреляции Спирмена равно \(r_{s}=0.8951049\), нулевая гипотеза \(H_0:\rho=0\) отвергнута: \(p-value=8.367\cdot10^{-5}<0.05\).
В заключении отметим, что наряду с коэффициентом Спирмена можно рассмотреть коэффициент ранговой корреляции Кенделла \(\tau\). Эта статистика также измеряет насколько отличаются друг от друга ранги \(r_{i1}\) и \(r_{i2}\), но несколько иным способом.

Комментариев нет:

Отправить комментарий