Линейная модель множественной регрессии в скалярной и векторной формах. МНК оценки коэффициентов множественной регрессии.


     Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1)  они должны быть количественно измеримы (качественные показатели могут быть проранжированы);

2)  факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной зависимости.

Включаемые факторы должны объяснять вариацию зависимой переменной. Если строится модель с р факторами, то для неё можно определить R2 – коэффициент детерминации, который фиксирует долю объясненной вариации признака. Влияние других,  не учтенных  в модели, факторов оценивается (1–R2) с соответствующей остаточной дисперсией.  При дополнительном включении в регрессию (р + 1)-го фактора коэффициент R2 должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, то включаемый фактор является лишним. Насыщение модели лишними факторами приводит к статистической незначимости параметров регрессии.

   Как и в парной зависимости возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции (степенная легко линеаризуется).

  Рассмотрим линейную модель множественной регрессии:

                              .

По выборке объёма n оценивается уравнение регрессии

                               ,

где неизвестные коэффициенты оцениваются МНК, при котором минимизируется сумма квадратов остатков, позволяя получить систему нормальных уравнений:

Решение системы может быть получено, например, по формулам Крамера:            

                                   , при этом

                               .

     Оценим коэффициенты регрессии МНК в матричной форме. Обозначим

     ,

Значения признака            Матрица объясняющих                        Вектор               Вектор                    Вектор

                                            переменных, столбцами                   регрессора j        случайных           коэффициентов

                                            которой являются Xj                                                        ошибок                регрессии

Модель множественной регрессии примет вид

,

где Х – детерминированная матрица, Y и   - случайные   матрицы. Пусть , где  - вектор модельных значений.  Сумма квадратов остатков минимизируется:

.

Необходимые условия получают дифференцированием  по вектору .

      .

Аналогично парной регрессии, можно показать, что вектор остатков е  всем независимым переменным и S = (1…1)T, а вектор  - есть ортогональная проекция вектора Y на гиперплоскость, образованную S и Х. Кроме того,

           ,         .

     Если перейти к стандартизованному масштабу:

,     ,     … ,    ,

уравнение регрессии примет вид:

                                    ,

где коэффициенты могут быть определены из системы уравнений

  ,

здесь  и  - парные коэффициенты корреляции.

Вернуться от стандартизованного масштаба к обычному можно с помощью соотношений:

                                    .

И, наконец, параметры уравнения множественной регрессии можно определить с помощью ППП:

  • ППП Excel:

а) Сервис/Анализ данных/Описательная статистика

б) Сервис/Анализ данных/Корреляция

в) Сервис/Анализ данных/Регрессия

  • ППП Statgraphic:

а) Describe/Numeric Data/Multiple Variable Analysis/ в доп. меню поставить флажки на Summary Statistics, Correlations, Partial Correlations

б) Relate/Multiple Regression.

 

Пример. Известны следующие данные (условные) о сменной добыче угля на одного рабочего Y (т), мощности пласта Х1 (м) и уровне механизации работ Х2 (%), характеризующие процесс добычи угля на 7 шахтах. Предполагая, что между Y, X1, X2 существует линейная корреляционная зависимость, найти её аналитическое выражение.

 

Х1

Х2

Y

1

8

5

5

2

11

8

10

3

12

8

10

4

9

5

7

5

8

7

5

6

8

8

6

7

9

6

6

Решение.

Проверим однородность выборки.

Vy=

30,86067%

Vx1=

17,26919%

Vx2=

20,55514%

 

 

Так как все значения меньше 35 %, то выборка однородна, и её можно использовать для анализа.

Вариант решения 1.

Расчет с помощью матричных операций.

           Использование матричной формы записи формул  и проведения расчетов имеет несколько преимуществ и недостатков.

Преимущества заключаются в том, что запись формул приобретает очень компактный вид: вид формул, представленных в матричном виде, не зависит от количества факторов, включенных в модель, и является очень удобным при расчетах характеристик многофакторных моделей.

Недостатком использования в расчетах матричных формул является необходимость хорошего знания матричной алгебры.

Приведем перечень используемых матричных операций.

Транспонирование – Вставка функции, Категория:  Ссылки и массивы, Функции: ТРАНСП.

Вычисление обратной матрицы - Вставка функции, Категория:  Математические, Функции: МОБР.

Умножение матриц – Вставка функции, Категория: Математические, Функции: МУМНОЖ.

Выполнение матричных функций имеют следующие особенности:

- для результирующей матрицы нужно выделить необходимое количество ячеек;

- для распространения действий на массив:

  • Выделить 1-ю ячейку с расчетами и  все ячейки, на которые будет распространено действие функции;
  • Нажать и отпустить клавишу «F2»;
  • Последовательно нажать, не отпуская, клавиши «Ctrl», «Shift», «Enter», отпустить все три клавиши, и на экране появится содержимое всей матрицы.

 

Вариант решения 2.

1) Составим  ,

 

              ,

 и

.

 

Таким образом, уравнение множественной регрессии примет вид:

.

 

Вариант решения 3.

    

Вариант решения 4.

Получим уравнение регрессии в стандартизованном масштабе.

 

На практике часто бывает необходимо сравнение влияние на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии и средние показатели эластичности Эj:

                             ,               .

Стандартизованный коэффициент регрессии показывает, на сколько величин Sy изменится в среднем зависимая переменная Y при увеличении только j-й объясняющей переменной на Sxj, а средний показатель эластичности Эj – на сколько % (от средней) изменится в среднем Y при увеличении только Хj на1 %.

Пример.

Для данных предыдущего примера имеем:

    1)

    2)    ;   

             .

 

Предыдущие материалы: Следующие материалы: