Главная > Обработка сигналов, моделирование > Построение динамических стохастических моделей по экспериментальным данным
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10d. Моделирование данных по суткам о расходе воды

Известен ряд исследований по построению моделей для данных по суткам. Во многих из этих работ периодические составляющие, присутствующие в последовательности среднесуточного расхода воды, устраняются путем приближения последовательностей средних значений и стандартных отклонений отрезками ряда Фурье. AR- и ARMA-модели подбираются к последовательностям данных с устраненным трендом.

Было выполнено довольно мало исследований, в которых проверялось, может ли модель во всех отношениях представлять имеющиеся данные. Во многих таких работах не сообщается даже о проверке остатков на их некоррелированность. Как упоминалось несколько выше, построение модели, представляющей данные в некотором подходящем смысле, оказывается трудным в случае данных о расходе воды по суткам из-за большого количества имеющихся наблюдений и из-за их изменчивости.

В этом параграфе будет рассмотрена задача выбора надлежащей модели для предсказания среднесуточного расхода воды в реке. Нам хотелось бы подчеркнуть, что мы не касаемся вопросов генерирования синтетических данных.

Вначале мы сравним между собой IAR- и AR-классы для того, чтобы выбрать наилучшую модель. Очевидно, аналогичным образом можно сравнивать также и другие классы. Затем мы сравним различные классы моделей в отношении качества предсказания. Хотя предназначением модели является именно предсказание, мы проанализировали характеристики остатков, а также другие свойства двух разных моделей, служащих для предсказания. Ниже анализируются и обсуждаются данные о среднесуточном расходе воды в реке Уобаш.

10d.1. Сравнение классов по критерию правдоподобия.

Мы сравним вначале различные авторегрессионные (AR) и интегрированные авторегрессионные модели различных порядков, используя решающее правило, основанное на правдоподобии (в разделе 8b.1.3). Остаточные дисперсии для различных моделей и показатели правдоподобия приведены в табл. 10d.1.1. В этой таблице есть число членов, оцениваемых в модели, полное число использованных наблюдений, равное 14976.

Наилучшей моделью является ибо она имеет наименьшее значение показателя правдоподобия с измененным знаком (эти значения приведены в последнем столбце табл. 10d.1.1). Кроме того, IAR-модели всегда хуже по качеству, чем AR-модели.

Таблица lOd.1.1. (см. скан) Изменение остаточной дисперсии и показателя правдоподобия для AR- и IAR- моделей различных порядков

Мы произвольно ограничили порядок AR-моделей числом 25» Наши выводы не изменятся, если рассмотреть AR-модели более высокого порядка.

10d.2. Сравнение классов по их способности предсказания.

Будем использовать первые наблюдений для оценки параметров выбранной модели. Модель, у которой неизвестные параметры заменены на их оценки, используется для получения прогнозов на один шаг остальных 4976 наблюдений. Пусть средняя квадратическая ошибка этих 4976 предсказаний, дисперсия остатков в модели, получаемой подбором к 10000 наблюдениям.

Значения для различных моделей приведены в табл. -модель дает наименьшее значение а введение дополнительных членов в эту модель приводит к увеличению значения Таким образом, с точки зрения качества прогноза -модель среди рассмотренных является наилучшей. Этот результат противоречит решению, принимаемому по критерию правдоподобия. Объяснение этому несоответствию заключается в том, что требование лишь хорошего прогноза оказывается не столь строгим,

как требования удовлетворительного представления данных. Результаты этого пункта означают, что нам не нужна очень сложная модель, если нас интересует только хороший прогноз.

Имеются значительные расхождения между значениями приведенными в табл.

Таблица 10d.2.1. (см. скан) Значения остаточной дисперсии и дисперсии ошибки прэдсказания для различных AR- и IAR-моделей

Эта разница может навести на мысль, что возможны другие правила предсказания, дающие значения более близкие к значению Однако детальный анализ не подтверждает такого заключения, а расхождения между можно объяснить тем фактом, что остаточная дисперсия модели в действительности не постоянна, а значительно изменяется во времени. В частности, остаточная дисперсия в интервале времени от до оказывается больше, чем эта дисперсия в интервале времени от до Чтобы убедиться в этом, примем во внимание, что остаточная дисперсия для -модели, построенной по 14976 наблюдениям, равна Из этих 14 976 остатков были выбраны последние 4976, их среднеквадратическое значение оказалось равным Это значение дисперсии остатков согласуется со значением равным

Наблюдаемые изменения во времени остаточной дисперсии не являются неожиданными, ибо стандартное отклонение последовательности данных также существенно изменяется во времени. Подчеркнем, что рассмотренная выше -модель не может учитывать эти наблюдаемые изменения в дисперсии.

10d.3. Проверка адекватности модели.

Как упоминалось выше, хотя при разработке моделей для процессов среднесуточного расхода воды в реках основной упор мы делаем главным образом на аспекте предсказания, нам также хотелось бы проверить остатки и исследовать другие свойства модели. С этой целью мы рассмотрим следующие три аспекта:

— Возможные изменения во времени коэффициентов модели.

— Проверка последовательности остатков для определения степени ее близости к последовательности с независимыми членами.

— Способность модели воспроизводить характеристики данных.

10d.3.1. Изменение коэффициентов во времени.

Мы уже видели, что остаточная дисперсия изменяется во времени и хотим выяснить, имеются ли существенные изменения во времени также и коэффициентов модели. Рассмотрим -модель. Если то согласованная AR(2)-мoдeль имеет вид

При согласованная AR(2)-мoдeль имеет вид

Для этих моделей изменения коэффициентов при составляют примерно от 1,5% до 4,0%, но изменение свободного члена существенно — около 7%. Предположительно это вызвано изменениями во времени выборочного среднего значения наблюдаемого процесса расхода воды.

В этих двух моделях мы рассмотрим также соответствующие стандартные отклонения оценок параметров. Оценки стандартных отклонений вычислялись в предположении адекватности данной модели. Так как адекватность самой модели вызывает сомнения, то стандартные отклонения оценок также сомнительные. Мы подчеркиваем этот факт по следующей причине. Если признать полученные значения стандартных отклонений, то даже разница в оценках коэффициента при в этих двух моделях окажется значимой с уровнем 95%, откуда следует, что мы должны и этот коэффициент рассматривать как изменяющийся во времени.

Аналогичный анализ можно произвести и для AR(25)-мoдeли. Две AR(25)-мoдeли, построенные по 14976 и 10 000 наблюдениям, описаны в табл. 10d.3.1. Снова два главных члена, а именно коэффициенты при изменяются несущественно, но наблюдается значительное изменение свободного члена. Имеются существенные расхождения между соответствующими AR-коэффициентами при Однако числовые значения этих коэффициентов малы по сравнению с коэффициентами при

10d.3.2. Проверка остатков.

Рассмотрим -модель, полученную на основе всех 14 976 наблюдений и выясним степень близости последовательности остатков к последовательности с некоррелированными членами. Если рассмотреть группы из 1000 остатков, то каждая отдельная группа выдерживает

критерий кумулятивной периодограммы при 95-процентном уровне значимости, показывая тем самым, что последовательность остатков можно рассматривать как не содержащую детерминированной синусоидальной составляющей, т. е. даже если в периодограмме просматриваются всплески на частотах, отвечающих таким периодам, как семидневный, то они оказываются еще незначимыми.

Таблица 10d.3.1. (см. скан) Изменения оценок коэффициентов модели AR (25) при изменении объема выборки

Предположительно коэффициенты AR-модели вполне пригодны для передачи наблюденных частотных составляющих в данных, отвечающих семидневным периодам.

Представляет интерес степень множественной корреляции остатков из различных моделей. Определим наибольшее целое число такое, что остатки могут рассматриваться как некоррелированные при 95-процентном коэффициенте

доверия. Целое число I можно определить по критерию 6 из раздела 8с.2, значения I для различных моделей приведены:

(см. скан)

Таким образом, AR-модель второго порядка дает очень бедное представление о данных. AR(25)-модель можно было бы рассматривать как удовлетворительную, если ограничиться использованием этой модели для выводов на основе небольшого числа дней, скажем 10—15.

Мы можем перепроверить полученный результат, рассматривая фактическую коррелограмму остатков. Так как стандартное отклонение вычисленной по наблюдениям оценки коэффициента корреляции при сдвиге к для последовательности с некоррелированными членами равно то можно принять эту оценку за истинный коэффициент корреляции, если ее абсолютное значение меньше, чем удвоенное стандартное отклонение, т. е. для Среди первых 41 коэффициентов корреляции остатков для AR(25)-модели имелось пять, превышающих границу 0,01. Основываясь только на коррелограмме, трудно заключить, что истинные значения первых 40 коэффициентов корреляции равны нулю и что отклонения вызваны только лишь конечностью объема выборки.

10d.3.3. Прямое сравнение коррелограмм.

Можно сравнить теоретическую коррелограмму AR-моделей с соответствующей эмпирической коррелограммой имеющихся данных. AR(2)-мoдeль оказывается неудовлетворительной. Коррелограмма AR(25)-мoдeли похожа на коррелограмму данных на интервале до значений сдвига около 40.

Если вычислить теоретическое стандартное отклонение оценок коэффициента корреляции -модели, то окажется, что наблюденная коррелограмма лежит в полосе, границы которой отстоят на 4 стандартных отклонения от теоретической коррелограммы модели.

10d.4. Обсуждение.

1. Этот пример служит превосходной иллюстрацией того факта, что модель, дающая хорошие предсказания, не обязательно удовлетворительно представляет данные. AR(2)-мoдeль лучше, чем AR(25)-мoдeль с точки зрения качества предсказания, иллюстрируя принцип экономии.

2. Отношение среднеквадратической ошибки щюгноза к среднеквадратическому значению сигнала равно

Квадратный корень из этой величины равен 0,074, т. е. относительная ошибка прогноза приблизительно равна 7,4%.

3. AR(25)-модель может претендовать на представление данных, как это показывают первые 40 коэффициентов корреляции.

10d.5. Детерминированные модели процессов среднесуточного расхода воды.

Для процессов среднесуточного расхода воды был разработан ряд моделей детерминированного характера с учетом влажности. Возможно, наиболее важной из этого типа моделей является станфордская модель речного бассейна (Кроуфорд, Линсли, 1966). Число входных величин в таких моделях обычно составляет примерно 20. Параметры моделей оптимизируются из условия минимума суммы квадратов разности между наблюденными и вычисленными значениями расхода воды или же по другому сходному критерию. Для того, чтобы с помощью этих моделей имитировать процессы среднесуточного расхода воды в реке, в дополнение к входным величинам необходима также модель выпадения осадков.

Сравнение стохастических моделей рассмотренного здесь типа, а также других, описанных в литературе, с детерминированными моделями показывает, что число параметров в любом случае велико. Иногда утверждается, что детерминированные модели лучшие стохастических, поскольку в их основу кладутся физические процессы типа распространения испарений, которые участвуют в круговороте от выпадения осадков до стока. Однако модели этих процессов сами по себе довольно грубые и содержат ряд параметров, которые должны оцениваться по эмпирическим данным. О сравнительном исследовании детерминированных и проверенных на адекватность стохастических моделей не появилось никаких сообщений, которые могли бы ясно показать преимущества детерминированных моделей. Требования к данным со стороны детерминированных моделей существенно превышают требования со стороны стохастических моделей. Наконец, разработка моделей суточных осадков для больших бассейнов, являющаяся необходимой предпосылкой для детерминированных моделей процессов расхода воды в реках, остается пока неразрешимой проблемой.

Исходя из этих соображений, стохастические модели следует предпочесть детерминированным, особенно при моделировании процессов среднесуточного расхода воды в реках, собирающих воды с больших бассейнов.

<< Предыдущий параграф Следующий параграф >>
Оглавление