Интервалы прогноза по линейному уравнению регрессии.


     Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Различают точечное и интервальное прогнозирование. При этом возможно предсказать условное математическое ожидание зависимой переменной (т.е. ср. значение), либо прогнозировать некоторое конкретное значение (т.е. индивидуальное).

     Пусть имеется уравнение регрессии . Точечной оценкой М(У│Х=хр) = р = . Так как  и  имеют нормальное распределение ( в силу нормальности ), то р является случайной величиной с нормальным распределением.

,

                          М(р) = М() =

D(р) = D() + D() + xp2D() + 2cov(,)xp =  +

+ xp2-2xp = (+ xp2 - 2 xp)│=

=  (+  - 2 xp + xp2) =  .

 - стандартная ошибка положения линии регрессии. Так как она минимальна при хр =  , то наилучший прогноз находится в центре области наблюдений и ухудшается по мере удаления от центра.

     Случайная величина   имеет распределение Стьюдента с (n-2) степенями свободы. Поэтому, задавая  = Р(<tкр(, n-2)), можно построить доверительный интервал для М(У│Х = хр), то есть положения линии регрессии (рис. 1.):   ()

Рис. 1. Доверительные интервалы положения линии регрессии – сплошная линия и индивидуального значения – пунктирная линия.

     Фактические значения у варьируются около среднего значения р. Индивидуальные значения у могут отклоняться от р на величину случайной ошибки . Пусть yi  - некоторое возможное значение у при хр. Если рассматривать yi как случайную величину У, а р – как случайную величину Ур, то можно отметить, что:

         Y ~ N(,        Yp ~ N().

Y и Yp независимы и, следовательно, U = Y - Yp  ~ N  с параметрами

                    M(U) = 0;                  D(U) = .

Значит        случайная величина, имеющая распределение Стьюдента с (n-2) степенями свободы. Аналогично строится доверительный интервал индивидуального значения.

Пример.  Стандартная ошибка среднего расчетного значения

.

При . При , . Следовательно,    и, т.к. ,   то               и

.

Стандартная ошибка индивидуального расчетного значения

,

    и     .

Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям. Поскольку  может быть как положительной, так и отрицательной величиной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Для того чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую.

.

 Допустимый предел 8 – 10 %, при котором подбор модели к исходным данным считается хорошим.

Возможно и другое определение средней ошибки аппроксимации:

.

Рассчитаем среднюю ошибку аппроксимации для нашего примера.

 

 

y

1

30

31,053

1,053

0,035

2

70

67,895

2,105

0,030

3

150

141,579

8,421

0,056

4

100

104,737

4,737

0,047

5

170

178,421

8,421

0,049

6

100

104,737

4,737

0,047

7

150

141,579

8,421

0,056

0,322

 

Окончательно получим: , что говорит о хорошем качестве уравнения.

Выборочный коэффициент вариации определяется отношением выборочного среднего квадратического отклонения к выборочной средней, выраженным в процентах:

      и      .

Коэффициент вариации – безразмерная величина, удобная для сравнения величин рассеивания двух и более выборок, имеющих разные размерности. Совокупность данных считается однородной и пригодной для использования МНК и вероятностных методов оценок статистических гипотез, если значение коэффициента вариации не превосходит 35 %.

Для нашего примера:

,

.

Предыдущие материалы: Следующие материалы: