Часто совместное двумерное распределение вероятностей случайных величин \(Y_1\) и \(Y_2\) существенно отличается от нормального. В этом случае можно попытаться преобразовать переменные таким образом, чтобы их двумерное совместное распределение стало приблизительно нормальным и затем использовать коэффициент корреляции Пирсона для оценки параметра \(\rho_{12}\).
Если подходящее преобразование не найдено, то для оценки связи между \(Y_1\) и \(Y_2\) можно использовать оценку, известную как непараметрический коэффициент ранговой корреляции Спирмена \(r_s\). Для его расчета значения переменных \(y_{i1}\) и \(y_{i2}\) преобразуются в ранги \(r_{i1}\) и \(r_{i2}\), то есть упорядочиваются по возрастанию и заменяются на свои порядковые номера (при этом равным значениям присваиваются усредненные номера, так называемые связанные ранги) и затем рассчитывается обычный коэффициент корреляции Пирсона, только основанный на рангах:\[r_s=\frac{\sum(r_{i1}-\bar{r}_{1})(r_{i2}-\bar{r}_{2})}{\sqrt{\sum(r_{i1}-\bar{r}_{1})^2\sum(r_{i2}-\bar{r}_{2})^2}},\]здесь \(\bar{r}_1\), \(\bar{r}_2\) - средние арифметические рангов \(r_{i1}\) и \(r_{i2}\). Ясно, что в случае рангов \(\bar{r}_1=\bar{r}_2=(n+1)/2\).
Коэффициент корреляции Спирмена принимает одно из значений между \(-1\) и \(1\) включительно. Коэффициент \(r_s\) равен \(1\) когда ранги переменной \(y_{i1}\) идентичны соответствующим рангам переменной \(y_{i2}\) (наблюдаются пары вида \((1,1)\), \((2,2)\) и т. д.), то есть имеет место совершенное совпадение рангов двух переменных; \(r_s\) равен \(-1\), когда ранги \(y_{i1}\) полностью противоположны соответствующим рангам \(y_{i2}\) (наблюдаются пары вида \((1,n)\), \((2,n-1)\) и т. д.), то есть имеет место полная противоположность рангов двух переменных; в случае малой упорядоченности между рангами наблюдений \(y_{i1}\) и \(y_{i2}\) коэффициент Спирмена принимает значения близкие к нулю.
Коэффициент корреляции Спирмена можно использовать для тестирования альтернативы \(H_0:\) - "нет связи между \(Y_1\) и \(Y_2\)", \(H_a:\) - "есть связь между \(Y_1\) и \(Y_2\)". В случае двустороннего теста \(H_a\) подразумевает оба (положительную и отрицательную) типа связи. Когда гипотеза \(H_a\) имеет вид: "существует положительная (отрицательная) связь между \(Y_1\) и \(Y_2\)" следует использовать правостороннюю (левостороннюю) альтернативу.
Распределение вероятностей \(r_s\) при условии нулевой гипотезы \(H_0\) получается исходя из того, что для любого ранжирования \(y_{i1}\) при условии отсутствия связи между \(Y_1\) и \(Y_2\) все ранжирования \(y_{i2}\) равновероятны. Когда размер выборки \(n\) больше \(10\) для приближенного тестирования нулевой гипотезы используют статистику:\[t^*=\frac{r_s\sqrt{n-2}}{\sqrt{1-r_s^2}}\sim t(n-2),\] имеющую \(t\)-распределение с \(n-2\) степенями свободы
Рассмотрим данные:
В заключении отметим, что наряду с коэффициентом Спирмена можно рассмотреть коэффициент ранговой корреляции Кенделла \(\tau\). Эта статистика также измеряет насколько отличаются друг от друга ранги \(r_{i1}\) и \(r_{i2}\), но несколько иным способом.
Если подходящее преобразование не найдено, то для оценки связи между \(Y_1\) и \(Y_2\) можно использовать оценку, известную как непараметрический коэффициент ранговой корреляции Спирмена \(r_s\). Для его расчета значения переменных \(y_{i1}\) и \(y_{i2}\) преобразуются в ранги \(r_{i1}\) и \(r_{i2}\), то есть упорядочиваются по возрастанию и заменяются на свои порядковые номера (при этом равным значениям присваиваются усредненные номера, так называемые связанные ранги) и затем рассчитывается обычный коэффициент корреляции Пирсона, только основанный на рангах:\[r_s=\frac{\sum(r_{i1}-\bar{r}_{1})(r_{i2}-\bar{r}_{2})}{\sqrt{\sum(r_{i1}-\bar{r}_{1})^2\sum(r_{i2}-\bar{r}_{2})^2}},\]здесь \(\bar{r}_1\), \(\bar{r}_2\) - средние арифметические рангов \(r_{i1}\) и \(r_{i2}\). Ясно, что в случае рангов \(\bar{r}_1=\bar{r}_2=(n+1)/2\).
Коэффициент корреляции Спирмена принимает одно из значений между \(-1\) и \(1\) включительно. Коэффициент \(r_s\) равен \(1\) когда ранги переменной \(y_{i1}\) идентичны соответствующим рангам переменной \(y_{i2}\) (наблюдаются пары вида \((1,1)\), \((2,2)\) и т. д.), то есть имеет место совершенное совпадение рангов двух переменных; \(r_s\) равен \(-1\), когда ранги \(y_{i1}\) полностью противоположны соответствующим рангам \(y_{i2}\) (наблюдаются пары вида \((1,n)\), \((2,n-1)\) и т. д.), то есть имеет место полная противоположность рангов двух переменных; в случае малой упорядоченности между рангами наблюдений \(y_{i1}\) и \(y_{i2}\) коэффициент Спирмена принимает значения близкие к нулю.
Коэффициент корреляции Спирмена можно использовать для тестирования альтернативы \(H_0:\) - "нет связи между \(Y_1\) и \(Y_2\)", \(H_a:\) - "есть связь между \(Y_1\) и \(Y_2\)". В случае двустороннего теста \(H_a\) подразумевает оба (положительную и отрицательную) типа связи. Когда гипотеза \(H_a\) имеет вид: "существует положительная (отрицательная) связь между \(Y_1\) и \(Y_2\)" следует использовать правостороннюю (левостороннюю) альтернативу.
Распределение вероятностей \(r_s\) при условии нулевой гипотезы \(H_0\) получается исходя из того, что для любого ранжирования \(y_{i1}\) при условии отсутствия связи между \(Y_1\) и \(Y_2\) все ранжирования \(y_{i2}\) равновероятны. Когда размер выборки \(n\) больше \(10\) для приближенного тестирования нулевой гипотезы используют статистику:\[t^*=\frac{r_s\sqrt{n-2}}{\sqrt{1-r_s^2}}\sim t(n-2),\] имеющую \(t\)-распределение с \(n-2\) степенями свободы
Рассмотрим данные:
y1 <- c(29, 435, 86, 1090, 219, 503, 47, 3524, 185, 98, 952, 89)
y2 <- c(127, 214, 133, 208, 153, 184, 130, 217, 141, 154, 194, 103)
и проведем для них анализ согласно изложенной теории:y2 <- c(127, 214, 133, 208, 153, 184, 130, 217, 141, 154, 194, 103)
> rank(y1)
## [1] 1 8 3 11 7 9 2 12 6 5 10 4
> rank(y2)
## [1] 2 11 4 10 6 8 3 12 5 7 9 1
> cor.test(
y1,
y2,
method = "spearman",
exact = FALSE,
alternative = "two.sided",
conf.level = 0.9
)
##
## Spearman's rank correlation rho
##
## data: y1 and y2
## S = 30, p-value = 8.367e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.8951049
Рассмотрим результаты: параметр \(S\) равен сумме квадратов разностей рангов, значение коэффициента корреляции Спирмена равно \(r_{s}=0.8951049\), нулевая гипотеза \(H_0:\rho=0\) отвергнута: \(p-value=8.367\cdot10^{-5}<0.05\).
## [1] 1 8 3 11 7 9 2 12 6 5 10 4
> rank(y2)
## [1] 2 11 4 10 6 8 3 12 5 7 9 1
> cor.test(
y1,
y2,
method = "spearman",
exact = FALSE,
alternative = "two.sided",
conf.level = 0.9
)
##
## Spearman's rank correlation rho
##
## data: y1 and y2
## S = 30, p-value = 8.367e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.8951049
В заключении отметим, что наряду с коэффициентом Спирмена можно рассмотреть коэффициент ранговой корреляции Кенделла \(\tau\). Эта статистика также измеряет насколько отличаются друг от друга ранги \(r_{i1}\) и \(r_{i2}\), но несколько иным способом.
Комментариев нет:
Отправить комментарий