Выбор адекватного уравнения регрессии. Построение уравнения регрессии с помощью метода наименьших квадратов (МНК).


Корреляционное отношение служит только оценкой тесноты корреляционной зависимости и никак не связано с ее формой. Проверка того, хорошо ли согласуется подобранная теоретическая линия регрессии с экспериментальными данными, называется проверкой адекватности уравнения регрессии.

Уравнение регрессии считается адекватным, если расхождение между эмпирической и теоретической линиями регрессии можно объяснить ошибками в определении условных средних, вызванных разбросом (дисперсией) случайных результатов эксперимента.

Для проверки адекватности условия используется критерий Фишера:

                                          

где     – остаточная дисперсия;

          – число коэффициентов в уравнении регрессии;

          – ордината линии регрессии в точке xi;

         – дисперсия воспроизводимости средних, равная исправленной внутренней дисперсии, деленной на число экспериментов m, по которым вычислялись условные средние :

                 

Величина Fэмп имеет распределение Фишера с  числами степеней свободы (n – число задаваемых экспериментатором значений величины X, m – число проводимых опытов, l – число коэффициентов в уравнении регрессии).

По заданному уровню значимости a = 0,05 и числам степеней свободы  из таблицы критических точек распределения Фишера находим Fкрит.

Если Fэмп < Fкрит, уравнение регрессии адекватно.

Если Fэмп > Fкрит, расхождение между теоретической и эмпирической линиями регрессии значимо, уравнение неадекватно, следует взять многочлен более высокого порядка.

Метод наименьших квадратов — один из методов регрессионного анализа для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки. Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке наблюдений.

Состоятельные, несмещенные и эффективные оценки коэффициентов регрессионной модели с гетероскедастичными или коррелированными случайными ошибками определяются с помощью обобщенного метода наименьших квадратов (ОМНК).

Нормальная линейная регрессионная модель строится на основании следующих предпосылок о случайных ошибках:

  • дисперсия случайной ошибки уравнения регрессии является величиной, постоянной для всех наблюдений:

 

 

  • случайные ошибки уравнения регрессии не коррелированны между собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю: , где i¹j.

В случае гетероскедастичности остатков нарушается первое из перечисленных свойств , где , а в случае автокорреляции остатков нарушается второе свойство .

Регрессионная модель, для которой не выполняются указанные свойства, называется обобщенной линейной регрессионной моделью.

В матричном виде обобщенную линейную регрессию можно записать как:, где X – неслучайная матрица факторных переменных; е - случайная ошибка регрессионной модели с нулевым математическим ожиданием Е(е) = 0 и дисперсией  Щ - ковариационная матрица случайных ошибок обобщенного регрессионного уравнения.

Для нормальной линейной регрессионной модели дисперсия случайной ошибки определялась из условия постоянства дисперсий случайных ошибок.

В обобщенной регрессионной модели ковариационная матрица случайных ошибок строится исходя из условия непостоянства дисперсий регрессионных остатков :

 

 

В ковариационной матрице случайных ошибок и заключается основное отличие обобщенной линейной регрессионной модели от нормальной линейной модели регрессии.

Теорема Айткена. В классе линейных несмещенных оценок неизвестных коэффициентов обобщенной регрессионной модели оценка

 

 

 

будет иметь наименьшую ковариационную матрицу.

Формула для расчета матрицы ковариация ОМНК–оценок коэффициентов обобщенной регрессии:

Величину  необходимо оценить для определения матрицы ковариаций ОМНК-оценок по формуле:

 

 

Здесь  – объем выборочной совокупности;

 – число оцениваемых по выборке параметров.

Значение  не является дисперсией случайной ошибки регрессионного уравнения.

В оценке качества обобщенной регрессионной линейной модели коэффициент детерминации использовать нельзя, так как он не отвечает требованиям, предъявляемым к обычному множественному коэффициенту детерминации.

Для проверки гипотез значимости коэффициентов обобщенного нормального уравнения регрессии и регрессионной модели применяются те же статистические критерии, что в случае нормальной линейной регрессионной модели.

 

Предыдущие материалы: Следующие материалы: