Числовые меры корреляционной связи


2.2.1. Ковариация

 

Приставка «Ко» означает  «совместный»  (ковариация – взаимосвязанная или совместная вариация). Генеральное значение ковариации определяется формулой:

 

                (2.1)

 

Здесь М - оператор вычисления математического ожидания, нуль вверху означает центрирование величины.

Заметим что в формуле (2.1) вариация случайных величин Y и X измеряется  их отклонением от математических ожиданий, а условие «совместности» измерения вариаций реализуется операцией умножения внутри квадратных скобок.

 

2.2.2. Выборочная оценка коэффициента линейной парной корреляции

 

На практике вместо генеральной совокупности мы имеем выборку из неё. Будем считать выборку репрезентативной, а связь между случайными величинами Y и X – линейной:

 

                                                     y = b0 + b1x,                                       (2.2)

 

где b0, b1 – генеральные (теоретические) значения параметров линейного уравнения регрессии (2.2.), которые будем обозначать греческими буквами, а их выборочные оценки b0, b1 – латинскими малыми буквами.

Если нормировать ковариацию (2.1), т.е. разделить ее на произведение средних квадратических отклонений (СКО)  и , то получим коэффициент парной корреляции. Генеральное значение коэффициента равно:

 

                                                                                                            (2.3.)

 

а выборочная оценка:

 

                                         (2.4.)

 

- выборочные оценки математических ожиданий mx, my;

Sx,Sy – выборочные СКО.

                                                          (2.5)

 

Знак при T определяет форму (характер) корреляционной связи в уравнении (2.2):

 

 (+) положительный знак соответствует возрастающему виду (при росте случайной величины х другая случайная величина тоже работает в среднем);

 ( - )  отрицательный знак соответствует убывающему виду, зависимости (2.2).

 

Таким образом коэффициент линейной парной корреляции изменяется в пределах .

 

2.2.3. Математический смысл коэффициента линейной парной корреляции

 

Предположим, что между двумя случайными величинами X и Y в среднем существует линейная связь (2.2), т.е. они связаны линейным уравнением регрессии для математических ожиданий

 

                                                                                                                    (2.6)

 

При взгляде на уравнение регрессии видно, что измерителем связи Y и X  может служить коэффициент b1. Действительно, вычисляя производную от функции , получим:

 

 

т.е. b1 оценивает скорость  изменения функции Y при  изменении аргумента X. Однако b1 неудобен как измеритель связи тем, что b1 зависит  от единиц измерения  X и Y. Хотелось бы иметь безразмерный показатель. Сделаем это, переходя  к нормированным переменным в уравнении регрессии:

 

                                                                    (2.7)

 

Коэффициент корреляции Tx,y есть скорость изменения (производная) нормированной функции  при вариации нормированного аргумента  и линейной связи между ними.

2.2.4. Статистический смысл коэффициента линейной парной корреляции

Запишем производную в приращениях:

 

                                                                                                     (2.8)

Заметим, что здесь b – это так называемый в регрессионном анализе бэтта-коэффициент .

Коэффициент линейной парной корреляции показывает на сколько процентов (%)(в долях от СКО Sy) изменяется случайная величина Y, если другая величина X измениться на 1% в долях от своего СКО Sx.

 

2.2.5. Геометрическая интерпретация коэффициента корреляции

 

Геометрическую интерпретацию коэффициента линейной парной корреляции как измерителя силы связи между случайными величинами Y и X можно уяснить из рисунку 2.1.

 

 

где:

а) – связь между Y и X в среднем отсутствует (коэффициент b1 в (2.6) равен нулю);

б) – возрастающая (в среднем) статистическая зависимость Y от X (b1>0);

в) – возрастающая детерминированная (функциональная) связь Y и X;

г) – падающая детерминированная (функциональная) зависимость;

д) – падающая статистическая зависимость.

 

Предыдущие материалы: Следующие материалы: