Тема «Парная регрессия и корреляция»


По территориям региона приводятся данные за 199X г.

Требуется:

1.Построить линейное уравнение парной регрессии  от .

2.Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3.Оценить статистическую значимость параметров регрессии и корреляции с помощью -критерия Фишера и -критерия Стьюдента.

4.Выполнить прогноз заработной платы  при прогнозном значении среднедушевого прожиточного минимума , составляющем 107% от среднего уровня.

5.Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6.На одном графике построить исходные данные и теоретическую прямую.

Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,

Среднедневная заработная плата, руб.,

1

75

133

2

78

125

3

81

129

4

93

153

5

86

140

6

77

135

7

83

141

8

94

152

9

88

133

10

99

156

11

80

124

12

112

156

Решение.

Для расчета параметров уравнения линейной регрессии строим расчетную таблицу

 

 

 

 

 

 

 

 

 

 

1

75

133

9 975

5 625

17 689

128,4484

4,5516

20,717

3,42

2

78

125

9 750

6 084

15 625

131,2351

-6,2351

38,876

-4,99

3

81

129

10 449

6 561

16 641

134,0218

-5,0218

25,218

-3,89

4

93

153

14 229

8 649

23 409

145,1686

7,8314

61,331

5,12

5

86

140

12 040

7 396

19 600

138,6663

1,3337

1,779

0,95

6

77

135

10 395

5 929

18 225

130,3062

4,6938

22,032

3,48

7

83

141

11 703

6 889

19 881

135,8796

5,1204

26,218

3,63

8

94

152

14 288

8 836

23 104

146,0975

5,9025

34,840

3,88

9

88

133

11 704

7 744

17 689

140,5241

-7,5241

56,612

-5,66

10

99

156

15 444

9 801

24 336

150,742

5,258

27,647

3,37

11

80

124

9 920

6 400

15 376

133,0929

-9,0929

82,681

-7,33

12

112

156

17 472

12 544

24 336

162,8177

-6,8177

46,481

-4,37

Итого

1046

1677

147 369

92 458

235 911

1677,0002

-0,0002

444,432

50,09

Среднее значение

87,17

139,75

12280,75

7 704,83

19 659,25

x

x

 

4,1742

среднее значение в квадрате

7 598,03

19 530,06

 

 

 

 

 

 

 

 

10,33

11,36

x

x

x

x

x

 

x

 

106,81

129,19

x

x

x

x

x

 

x

1. Линейная регрессия сводится к нахождению уравнения вида 

Построение линейной регрессии сводится к оценке её параметров – a и b.

Для оценки параметров a и b необходимо решить систему:

где  n число наблюдений в совокупности ( в нашем случае 12)

a и b искомые параметры

x и y фактические значения факторного и результативного признаков.

Можно воспользоваться готовыми формулами

       0,9289

 

Коэффициент регрессии () показывает абсолютную силу связи между вариацией  x и вариацией y. Применительно к данной задаче можно сказать, что c увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,9289 руб.

Таким образом, управление регрессии имеет следующий вид:

2. Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции

Линейный коэффициент корреляции находится в границах: . Чем ближе значение к единице, тем теснее связь.

Рассчитаем линейный коэффициент парной корреляции по формуле:

Связь между переменными достаточно тесная.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента , называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака у, объясняемую регрессией.

Это означает, что доля вариации y объясненная вариацией фактора x включенного в уравнение регрессии равна 71,35%, а остальные 28,65% вариации приходятся на долю других факторов, не учтенных в уравнении регрессии.

Качество модели определяет средняя ошибка аппроксимации.

Найдём величину средней ошибки аппроксимации

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Допустимый предел значений  - не более 8-10%.

%

Качество построенной модели оценивается как хорошее, так как  не превышает 8-10%.

3. Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера.

F-тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы о статистической незначимости  уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического и табличного  значений F-критерия Фишера.

Если <, то - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если >, то гипотеза не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессия.

Рассчитаем фактическое значение F-критерий Фишера  через коэффициент детерминации  по формуле:

Табличное значение критерия при уровня значимости L=0,05 (для вероятности 0,95) и числа степеней свободы:  и  составляет . Так как, ,  то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Выдвигается гипотеза  о случайной природе показателей, т.е. о незначимом их отличии от  нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью -статистики Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

                     

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

, где

 

Тогда,  

Табличное значение -критерия для числа степеней свободы  и  составит .

Фактические значения -статистики превосходят табличное значение:

                           ,

поэтому гипотезаотклоняется, т.е параметры ,  и  не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии  и Предыдущие материалы:

Следующие материалы: