Логотип

BasedCalc

Ряд X

Ряд Y


Коэффициент корреляции Спирмена

Введение

Коэффициент корреляции Спирмена — это не параметрическая мера статистической зависимости между двумя переменными. Он оценивает степень и направление монотонной зависимости между переменными и особенно полезен, когда данные не соответствуют нормальному распределению или содержат выбросы. Коэффициент варьируется от -1 до 1, где значения -1 и 1 указывают на идеальную отрицательную или положительную монотонную зависимость, соответственно.

Операция

Коэффициент корреляции Спирмена (ρ\rho) определяется на основе рангов данных. Расчёт заключается в следующем:

  1. Присвоение рангов каждому элементу каждой из двух выборок.
  2. Вычисление разности рангов (did_i) для каждого сопряжённого наблюдения.
  3. Использование формулы Спирмена:
ρ=16di2n(n21)\begin{equation*} \begin{aligned} \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \end{aligned} \end{equation*}

где did_i — разность рангов, и nn — общее количество наблюдений.

Свойства

  • Не параметрический метод: Подходит для данных, которые не соответствуют нормальному распределению.
  • Монотонная зависимость: Выявляет зависимости, которые сохраняют порядок, но не обязаны быть линейными.
  • Устойчивость к выбросам: Менее чувствителен к выбросам по сравнению с коэффициентом Пирсона.

Примеры использования

Пример 1

Предположим, у нас есть два набора данных: X=[3,1,4,2]X = [3, 1, 4, 2], Y=[4,2,3,1]Y = [4, 2, 3, 1]

  1. Присвоим ранги:

    • Ранги для X: (2,1,4,3)(2, 1, 4, 3)
    • Ранги для Y: (4,2,3,1)(4, 2, 3, 1)
  2. Найдём разности рангов:

    • d1=24=2d_1 = 2 - 4 = -2
    • d2=12=1d_2 = 1 - 2 = -1
    • d3=43=1d_3 = 4 - 3 = 1
    • d4=31=2d_4 = 3 - 1 = 2
  3. Вычислим сумму квадратов разностей рангов:

    • di2=(2)2+(1)2+12+22=10\sum d_i^2 = (-2)^2 + (-1)^2 + 1^2 + 2^2 = 10
  4. Используем формулу Спирмена:

    ρ=16×104(421)=16060=0\rho = 1 - \frac{6 \times 10}{4(4^2 - 1)} = 1 - \frac{60}{60} = 0

Пример 2

Для значимости корреляции Спирмена используется критерий на основе p-value.

Предположим, в другом наборе данных с n=5n = 5 наблюдениями ρ=0.9\rho = 0.9. Для небольших выборок используется преобразование Спирмана для определения p-value, обычно через таблицы или программные реализации. Например, p-value для ρ=0.9\rho = 0.9 и n=5n = 5 может быть около 0.037.

Часто задаваемые вопросы (FAQ)

  • В чем разница между коэффициентами Спирмена и Пирсона?
    • Спирмен измеряет монотонную зависимость и не требует нормального распределения, тогда как Пирсон оценивает линейную зависимость и относительно чувствителен к выбросам.
  • Может ли коэффициент Спирмена быть ненулевым, если данные независимы?
    • Да, особенно на небольших выборках, значение Спирмена может отличаться от нуля из-за случайных вариаций.

Примеры из жизни

  • Психология: Анализируем корреляции между оценками и поведением, где не требуется линейная зависимость.
  • Экология: Изучаем взаимосвязь между показателями среды и биологическим разнообразием.
  • Маркетинг: Исследуем зависимости между позиционированием товаров на полках и объемами продаж, где данные имеют ранговую природу.

Ссылки на литературу и ресурсы