Корреляция для нелинейной регрессии. Тест Бокса-Кокса.


     Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателями корреляции:

      = 1- ;     .

     Величину R2 для нелинейных связей называют индексом детерминации, а R – индексом корреляции. Чем ближе значение R2 к 1, тем связь рассматриваемых признаков теснее, тем более надежно уравнение регрессии.

     Если после преобразования уравнение регрессии (нелинейное по объясняющим переменным) принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции Ryx = ryz, где z – преобразованная величина признака-фактора, например z = 1/x или z = ln x.

     Если преобразования в линейную форму связаны с результативным признаком (нелинейность по параметрам), то линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку тесноты связи. Он численно не совпадает с R, R  r, так как r рассчитывается между lny и lnx, а коэффициент детерминации использует суммы квадратов отклонений признака y, а не его логарифма.

     R2 для нелинейной регрессии имеет тот же смысл, что и коэффициент детерминации.

      Оценка существенности индекса корреляции производится так же, как и оценка надежности коэффициента корреляции. Индекс корреляции  R используется для проверки существенности уравнения нелинейной регрессии в целом по F – критерию Фишера:

                  F =    , где n – число наблюдений, р – число параметров при х.

Индекс детерминации R2 можно сравнивать с коэффициентом детерминации r2   для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина коэффициента детерминации r2 меньше индекса детерминации R2. Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина (R2 – r2)  0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различий R2, вычисленных по одним и тем же исходным данным, через t – критерий Стьюдента:

,

где    - ошибка разности между R2 и r2.

Если  tнабл > tкр, то различия между рассматриваемыми показателями корреляции существенны и замена нелинейной регрессии уравнением линейной функции невозможно. Если t < 2, то различия между R и r несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположение о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

     Если R2 и r2 приблизительно равны, используют стандартную процедуру, известную под названием теста Бокса-Кокса.  Тест включает следующие шаги:

1) определяется среднее геометрическое y в выборке;

2) пересчитываются наблюдения  где  - пересчитанные значения для i-го наблюдения;

3) оценивается регрессия для  вместо y и для логарифмической модели ln y* вместо ln y;

4) определяют величину , где z – отношение значений суммы квадратов отклонений в пересчитанных регрессиях, n – число наблюдений.

Эта статистика имеет распределение с 1-й степенью свободы. Если  < кр(1,), то разница значима. Модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие.

 

Предыдущие материалы: Следующие материалы: