Идентификация стационарной модели ARMA


Основной отправной точкой для идентификации стационарной модели ARMA является наличие различий в поведении автокорреляционных (ACF) и частных автокорреляционных (PACF) функций (ACF – autocorrelation function, PACF – partial autocorrelation function)  рядов, соответствующих различным моделям ARMA.

О поведении автокорреляционных функций для различных моделей ARMA мы уже говорили. Однако по поведению только автокорреляционной функции трудно идентифицировать даже порядок чистого (без MA составляющей) процесса авторегрессии. Решению этого вопроса помогает рассмотрение поведения частной автокорреляционной функции (PACF) стационарного процесса  Xt . Ее значение  ρpart(k)  на лаге k  (частная автокорреляция – partial autocorrelation) определяется как значение коэффициента корреляции между случайными величинами Xt и Xt+k, очищенными от влияния “промежуточных” случайных величин  Xt+1 , …, Xt+k–1 .

Можно показать, что  ρpart(k)  определяется как решение относительно  ak  системы первых k уравнений Юла – Уокера, соответствующих модели AR(k):

ρ(s) =  a1 ρ(s–1)  + a2 ρ(s–2)  + … + ak ρ(sk) ,   s = 1, 2, …, k ,

которую в этом случае удобнее записать в виде

ρ(s–1) a1  + ρ(s–2) a2 + … + ρ(sk) ak  = ρ(s) , s = 1, 2, …, k ,

подчеркивая, что неизвестными здесь являются  a1, a2, …, ak , а  ρ(1–k), …, ρ(k–1) – известные коэффициенты. Исходя из этого и применяя известное из алгебры правило Крамера решения системы  k  линейных уравнений снеизвестными, находим, что вычисление PACF можно производить по формулам

ρpart(0) = 1,

ρpart(1) = ρ(1),

ρpart(2) = = ,

ρpart(3) =,

               

ρpart(k) =    .

Здесь определитель в числителе выражения для  ρpart(k) отличается от определителя в знаменателе этого выражения только заменой последнего столбца столбцом, состоящим из значений ρ(1), ρ(2), ...,  ρ(k).

Замечательным является тот факт, что если  Xt   – процесс типа AR(p), то тогда

ρpart(p) ≠ 0 ,

ρpart(k) = 0  для  k > p.

Это позволяет по графику PACF определять порядок процесса авторегрессии и отличать процесс авторегрессии от процессов скользящего среднего и ARMA(p, q) с  q > 0.

Напомним, что зануление ACF после лага  соответствует процессу MA(q). Теперь же мы видим, что зануление PACF после лага  p соответствует процессу AR(p). Поэтому идентификация этих моделей по ACF и PACF более определенна по сравнению с идентификацией моделей  ARMA(p, q)  с  p ≠ 0,  q ≠ 0.

В то же время, вместо не известных нам истинных последовательностей автокорреляций  ρ(k) и частных автокорреляций  ρpart(k) мы можем довольствоваться только их оценками – выборочной ACF (sample ACF – SACF), образованной  выборочными автокорреляциями  (sample autocorrelations)

                                  

где

 - оценка для  μ = E(Xt) ,

   - оценка для  γ(k),

и  выборочной PACF  (sample PACF – SPACF),  образованной выборочными частными автокорреляциями rpart(k) (sample partial autocorrelations). Получить последние можно, заменяя входящие в выражения для  ρpart(k) автокорреляции ρ(s)  их оценками  r(s). Однако проще поступить иначе: просто оценить методом наименьших квадратов коэффициенты в модели

Xt = a1 Xt–1 + a2 Xt–2 + … + ak Xt–k + ut

Полученная в результате оценка коэффициента  ak  и есть rpart(k) .

Если у стационарного ARMA(pq)-процесса  все корни алгебраического уравнения  лежат за пределами единичного круга на комплексной плоскости и , то указанные оценки    r(k) и rpart(k) являются состоятельными  оценками для  μ , γ(k),  ρ(k)  и  ρpart(k), соответственно. Но, поскольку r(k) и rpart(k) всего лишь оценки для ρ(k) и ρpart(k), то их наблюдаемые значения могут значительно отличаться от ρ(k) и  ρpart(k). В частности, если при некоторых  k = k1  и  k = k2  в модели, порождающей наблюдения, ρ(k1) = 0  и  ρpart(k2) = 0, то, как правило, r(k1) ≠ 0  и  rpart(k2) ≠ 0, что вносит дополнительную неопределенность в задачу идентификации. Более того, характер изменения теоретической автокорреляционной функции вовсе не обязательно будет воспроизводиться в ее выборочном аналоге – выборочной автокорреляционной функции.

Тем не менее, во многих случаях поведение теоретических ACF и PACF в какой-то мере отражается и на поведении их выборочных аналогов. Поэтому представление о поведении теоретических ACF и PACF может помочь в решении задачи  идентификации соответствующих моделей в рамках общего класса моделей ARMA.

Имея в виду возможность идентификации моделей AR(p) и MA(q) по графикам функций  r(k) и  rpart(k) , желательно иметь статистические критерии для проверки гипотез о равенстве нулю тех или иных значений  ρ(k) и  ρpart(k)  на основании наблюдаемых значений  r(k) и  rpart(k). Вопрос этот весьма сложный, и мы ограничимся только двумя приближенными рецептами, которые предполагают гауссовость инноваций (т.е., что  εt   – гауссовский белый шум).

(1)  Если  Xt  – процесс типа MA(q), то

limT→∞ E(r(k)) = ρ(k)

и при больших  T

              для k > q ,

так что чем длинее ряд наблюдений, тем надежнее выявляются нулевые значения  ρ(k), k > q .

Более того, при больших  и  k > q  распределение случайной величины  r(k) близко к нормальному распределению. Отсюда вытекает, что естественный приближенный критерий проверки гипотезы  H0 : “Xt – процесс типа MA(q)” состоит в том, чтобы отвергать эту гипотезу, если

                     для  k > q .

Уровень значимости такого критерия приближенно равен 0.05.

В частности, если  q = 0, то Xt ~ MA(0) – белый шум, и гипотеза H0: “Xt – белый шум” отвергается указанным приближенным критерием при

k > 0.

(2) Если  Xt – процесс типа  AR(p), то при больших  и  k > распределение  rpart(k) можно аппроксимировать нормальным распределением

 rpart(k) ≈ N (0, T –1)      (так что  D(rpart(k)) ≈ T – 1 ).

Следовательно, если гипотезу  H0: Xt ~ AR(p) отвергать при

k > p,

то получим критерий, уровень значимости которого приближенно равен 0.05.

Имея в виду два указанных приближенных критерия, в процедурах анализа временных рядов обычно предусмотрена распечатка графиков выборочных ACF и PACF, на которые нанесены границы полосы  . В этих границах с вероятностью, близкой к 0.95, должно заключаться при k > 0 значение  r(k), если  Xt – белый шум, и при k > p значение  rpart(k), если  Xt ~ AR(p).

 Здесь следует сделать одно важное предупреждение. Именно, оба построенных критерия имеют уровень значимости, близкий к 0.05, только когда мы проверяем гипотезу  H0  при некотором фиксированном  k . Если же мы смотрим на выходы из полосы  в целом, то, например, вероятность наличия хотя бы одного выхода из этой полосы значений r(k), k = 1, 2,…,36, для модели белого шума приблизительно равна   1– (1– 0.05)36 = 0.842.

Рассмотренный пример показывает, что к интерпретации графиков выборочных ACF и PACF следует подходить достаточно осторожно. Сюда же относится и то обстоятельство, что выражение, используемое при вычислении значений  r(k) в пакете EVIEWS, отличается от приведенного выше: в формуле для деление производится не на  T – k , а на  T . Последнее приводит к тому, что так вычисляемая оценка для  ρ(k) имеет смещение в направлении нуля.

В распечатках анализа временных рядов вместе с графиками выборочных ACF и PACF обычно печатаются значения  Q-статистики (Q-statistics), относящиеся к критерию для проверки гипотезы о том, что наблюдаемые данные являются реализацией процесса белого шума.

Существует несколько вариантов  Q-статистик. Одна из таких статистик (статистика Бокса – Пирса, Box – Pierce Q-statistic) имеет вид

.

Вспомним уже упоминавшиеся ранее результаты об асимптотической независимости  r(1), r(2), …, r(M)  в случае, когда  Xt  – белый шум, и заметим, что при больших  T  в этом случае  r(k) ≈ N (0, 1),  так что  T r2(k) 2 = χ2(1) . (Заметим, что в этой ситуации не требуется гауссовость  Xt  – см. ). Отсюда вытекает, что при больших  приближенно имеем:

Q ~ χ2(M). 

Против гипотезы H0 говорят скорее большие значения этой статистики. Поэтому если выбрать уровень значимости равным  0.05, то естественно отвергать эту гипотезу при выполнении неравенства

Q > χ20.95(M),

где  χ20.95(M)  – квантиль уровня  0.95 распределения хи-квадрат с  М  степенями свободы.­

В распечатках коррелограмм приводятся P-значения (наблюдаемые уровни значимости) статистики  для последовательных значений  M = 1, 2, … .  При конкретном значении  M  гипотеза H0  отвергается, когда соответствующее P-значение меньше 0.05.

Впрочем, исследования показали, что статистика Бокса – Пирса плохо приближается распределением  χ2(M) при умеренных значениях T . Вместо нее в таких случаях предпочтительнее использовать статистику Люнга – Бокса (Ljung – Box Q-statistic)

             ,

которая (при  T → ∞) также имеет асимптотическое распределение  χ2(M), но ближе к этому распределению при умеренных значениях , чем статистика Бокса – Пирса. В пакете EVIEWS (Econometric Views) значения статистики Люнга – Бокса распечатываются вместе с приближенными  P-значениями, соответствующими распределениям  χ2(M).

Практическое использование Q-статистик наталкивается на определенные трудности. Посмотрим на таблицу P-значений (Prob) Q-статистики Люнга – Бокса для смоделированной реализации процесса белого шума (табл.1.3).

                               Табл. 1.3

M

Prob

 

M

Prob

 

M

Prob

1

0.670

13

0.064

25

0.061

2

0.873

14

0.045

26

0.077

3

0.292

15

0.049

27

0.063

4

0.348

16

0.066

28

0.072

5

0.349

17

0.037

29

0.065

6

0.455

18

0.044

30

0.061

7

0.539

19

0.044

31

0.076

8

0.438

20

0.033

32

0.084

9

0.360

21

0.037

33

0.096

10

0.243

22

0.049

34

0.099

11

0.146

23

0.056

35

0.119

12

0.187

24

0.064

36

0.119

Здесь P-значения, соответствующие  M = 14, 15, 17 – 22, меньше 0.05, так что формально при использовании статистики Люнга – Бокса с любым из этих значений  гипотеза  H0: “Xt  – белый шум” должна отвергаться, тогда как при остальных значениях  соответствующие  P-значения больше, чем 0.05, и гипотеза  H0 при таких значениях  не отвергается.

Какого-либо определенного рецепта, указывающего, как поступать в подобных ситуациях, на какое значение  следует ориентироваться, до сих пор не существует.

Уже из рассмотренного примера ясно, что на этапе выбора подходящей модели среди всего множества ARMA моделей используемые процедуры являются не вполне точными и часто приводят к довольно неопределенным выводам. В итоге этого этапа возможно оставление для дальнейшего исследования не одной, а нескольких потенциальных моделей.

Предыдущие материалы: Следующие материалы: