Логотип

BasedCalc

Ряд X

Ряд Y


Коэффициент корреляции Пирсона

Введение

Коэффициент корреляции Пирсона — это мера линейной зависимости между двумя количественными переменными. Полученное значение лежит в интервале от -1 до 1, где 1 указывает на идеальную положительную линейную зависимость, -1 на идеальную отрицательную, а 0 на отсутствие линейной зависимости. Этот коэффициент широко используется в статистических и аналитических исследованиях для понимания взаимосвязей между переменными.

Операция

Коэффициент корреляции Пирсона, обозначаемый как rr, вычисляется по формуле:

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2\begin{equation*} \begin{aligned} r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \end{aligned} \end{equation*}

где xix_i и yiy_i — значения данных, xˉ\bar{x} и yˉ\bar{y} — их средние значения. Значение pp-value позволяет оценить статистическую значимость вычисленного коэффициента корреляции.

Свойства

  • Диапазон значений: 1r1-1 \leq r \leq 1.
  • Знак корреляции: Положительное значение указывает на прямую связь, отрицательное на обратную.
  • Масштаб независимость: Корреляция не изменяется при линейном преобразовании данных.
  • Чувствительность: Влияет только линейная зависимость, не реагирует на другие виды зависимости.

Примеры использования

Пример 1

Рассчитайте коэффициент корреляции Пирсона и pp-value для двух наборов данных: X=[1,2,3,4,5]X = [1, 2, 3, 4, 5], Y=[2,4,6,8,10]Y = [2, 4, 6, 8, 10].

Вычислим rr:

xˉ=3,yˉ=6r=(xi3)(yi6)(xi3)2(yi6)2=2020=1\begin{equation*} \begin{aligned} \bar{x} &= 3, \\ \bar{y} &= 6 \\ r &= \frac{\sum (x_i - 3)(y_i - 6)}{\sqrt{\sum (x_i - 3)^2 \sum (y_i - 6)^2}} = \frac{20}{20} = 1 \end{aligned} \end{equation*}

PP-value для r=1r = 1 представляет идеальную линейную зависимость, что обычно говорит о статистической значимости в случае случайных данных, но в данном случае данных недостаточно для адекватной оценки.

Пример 2

Для более случайных данных X=[1,2,3,5,8]X = [1, 2, 3, 5, 8], Y=[2,3,5,7,10]Y = [2, 3, 5, 7, 10] рассчитаем rr и pp-value:

Вычислим rr:

xˉ=3.8,yˉ=5.4r=(xi3.8)(yi5.4)(xi3.8)2(yi5.4)20.9912\begin{equation*} \begin{aligned} \bar{x} &= 3.8, \\ \bar{y} &= 5.4 \\ r &= \frac{\sum (x_i - 3.8)(y_i - 5.4)}{\sqrt{\sum (x_i - 3.8)^2 \sum (y_i - 5.4)^2}} \approx 0.9912 \end{aligned} \end{equation*}

PP-value вычисляется через tt-статистику, используя распределение Стьюдента, показывая достаточно высокую корреляцию между данными.

Часто задаваемые вопросы (FAQ)

  • Что показывает коэффициент корреляции Пирсона?

    • Он показывает степень линейной зависимости между двумя переменными.
  • Какие значения считаются высокими для коэффициента?

    • Значения ближе к -1 или 1 указывают на сильную линейную зависимость.
  • Как связаны rr и pp-value?

    • PP-value оценивает вероятность возникновения такой или более сильной корреляции, исходя из предположения о несвязанности переменных.

Примеры из жизни

  • Климатология: Изучение связи между температурой и уровнем осадков для прогнозирования изменения климата.
  • Медицина: Оценка зависимости между симптомами и заболеванием для улучшения диагностики.
  • Экономика: Анализ влияния изменений в процентной ставке на экономический рост или инфляцию.

Ссылки на литературу и ресурсы