Проверка значимости и интервальное оценивание коэффициентов и уравнения регрессии, проблема мультиколлинеарности, пошаговые алгоритмы регрессионного анализа.


Значимость уравнения регрессии, т. е. гипотеза H0: β=0   (β0=β1=...=βk=0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле:

 

,

 

Где

 

По таблице F-распределения для заданных α, ν1=κ+1, ν2=n−κ−1 находят Fкр.

Гипотеза   отклоняется с вероятностью α, если Fнабл>Fкр. Из этого следует, что уравнение является значимым, т. е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т. е. гипотез H0:

βj=0, где j=1,2,...k, используют t-критерий и вычисляют: По таблице t-

распределения для заданного α и ν= n-k-1, находят tкр .

Гипотеза  отвергается с вероятностью α, если |>tкр. Из этого следует, что соответствующий коэффициент регрессии βj значим, т. е. βj ≠0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначимых переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например, с последовательным включением факторов.

Интервальное оценивание коэффициентов регрессии

Наряду с точечными оценками bj генеральных коэффициентов регрессии βj регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра βj имеет вид:

,

где tα находят по таблице t-распределения при вероятности α =1−γ и числе степеней сво-

боды ν=n−κ−1 .

Интервальная оценка для уравнения регрессий  в точке, определяемой вектором

начальных условий  равна:

.

 

А точечная оценка

Интервал оценки предсказания 1 с доверительной вероятностью γ определяется

как:

где tα определяется по таблице t-распределения при α = 1−γ и ν = n−κ−1.

По мере удаления вектора начальных условий  от вектора средних x ширина доверительного интервала при заданном γ будет увеличиваться, где .

Мультиколлинеарность

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица  становятся слабообусловленными, то есть их определители близки к нулю.

Это вызывает неустойчивость оценок коэффициентов регрессии , большие дисперсии, оценок этих коэффициентов, т. к. в их выражения входит обратная матрица , получение которой связано с делением на определитель матрицы  .

Отсюда следуют заниженные значения t(bj). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции. На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0.8, т. е.  , то считают, что имеет место мультиколлинеарность и в уравнение регрессии следует включать только один из показателей или . Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

 

Предыдущие материалы: Следующие материалы: