Главная > Обработка сигналов, моделирование > Проверка статистических гипотез
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

9. Достаточные статистики

Мы видели в предыдущем разделе, что минимальный полный класс соответствует максимальной возможной редукции проблемы решения, осуществляемой без потери информации. Часто возможно произвести сокращение (редукцию) данных, применимое одновременно ко всем проблемам, касающимся заданного класса распределений случайной величины Эта редукция состоит в отбрасывании той части данных,

которая не содержит информации относительно неизвестного распределения следовательно, бесполезна для любой" проблемы решения, касающейся .

Пример 13. Производятся независимые испытания с постоянной неизвестной вероятностью успеха Пусть равно 1, если испытание закончилось успехом, и равно в противном случае. Выборка показывает число успехов и номера испытаний, в которых они произошли. Последняя информация ничего не проясняет в вопросе о значении Коль скоро общее число успехов дано, то каждое из возможных расположений этих успехов имеет одну и ту же вероятность безотносительно к тому, каково Отсюда следует, что, зная но не зная ни отдельных ни возможно с помощью таблицы случайных чисел построить множество случайных величин совместное распределение которых такое же, как и Следовательно, информация, содержащаяся в такая же, как в и таблице случайных чисел.

Пример 14. Пусть независимы и распределены нормально с математическим ожиданием и дисперсией Тогда условное распределение выборочной точки на каждой из сфер равномерно, каково бы ни было Зная можно построить эквивалентную выборку если располагать механизмом, который наудачу наносит точки на сферу.

Вообще, статистика называется достаточной для семейства (или достаточной для , если из контекста ясно, о каком идет речь), когда условное распределение X при условии не зависит от . При слабых ограничениях отсюда следует, так же как и в указанных двух примерах, что нет необходимости использовать сами первоначальные результаты наблюдений Если мы наблюдаем лишь (вместо класс доступных решающих процедур не становится уже. Пусть для каждого значения статистики обозначает случайную величину, распределение которой совпадает с условным распределением X при Такая величина может быть, по крайней мере теоретически, построена с помощью надлежащего случайного механизма. Если сначала наблюдение дает значение для , а затем значение х для то случайная величина получаемая в результате такой двукратной процедуры, имеет то же распределение, что и Таким образом, для любой заданной процедуры, основанной на возможно построить эквивалентную ей, основанную на Эта последняя может рассматриваться как рандомизированная процедура, использующая только Следовательно, если разрешена рандомизация (а мы всюду будем предполагать, что это так и есть), то ограничение достаточными статистиками не приводит к потере общности.

Необходимость вычислять условное распределение X при данном с тем, чтобы установить — является ли статистика достаточной или нет, оказывается неудобной. Простой способ проверки дает следующий критерий факторизации.

Рассмотрим сначала случай дискретного X, и пусть Тогда необходимое и достаточное условие для того, чтобы статистика была достаточной для , состоит в существовании факторизации

где первый множитель может зависеть от , а от х зависит только через в то время как второй множитель не зависит от .

Предположим, что (16) выполняется, и пусть Тогда где сумма берется по и условная вероятность

не зависит от . Обратно, если это условное распределение не зависит от и равно, скажем, то так что (16) выполняется.

Пример 15. Пусть независимы и одинаково распределены по закону Пуассона (2). Тогда

откуда следует, что является достаточной статистикой для

Рассмотрим случай, когда распределение X непрерывно и имеет плотность Пусть — векторы, скажем Допустим, что на пространстве выборок существует функция такая, что преобразование

взаимно однозначно в соответствующей области и что совместная плотность существует и связана с плотностью X обычной формулой

где якобиан по отношению к Так, в примере могут быть определены как полярные координаты выборочной точки. По совместной плотности мы находим условную плотность У при данном

предполагая, что знаменатель отличен от нуля.

Так как в условном распределении при данном меняются только величины У, то достаточна для , если условное распределение У при данном не зависит от . Предположим, что удовлетворяет (19). Тогда, аналогично дискретному случаю, статистика будет достаточной тогда и только тогда, когда плотность допускает факторизацию вида

(см. задачу 19). Ниже приводятся два примера, иллюстрирующие применение критерия в этом случае. В обоих примерах существование функции У, удовлетворяющей предполагается, но не доказывается. Как мы увидим позже (раздел 6 главы 2), это предположение не является необходимым для справедливости критерия факторизации.

Пример 16. Пусть независимы и имеют нормальную плотность распределения

Критерий факторизации показывает, что статистика достаточна для

Пример 17. Пусть независимы и имеют равномерное распределение на отрезке . Тогда где при при Следовательно, статистика достаточна для .

Другой критерий достаточности устанавливает прямую связь между этим понятием и некоторыми из основных понятий теории статистических решений. Как в байесовском подходе предположим, что неизвестный параметр является случайной величиной в с априорным распределением. Для простоты примем, что оно имеет плотность Тогда, если достаточна, то условное распределение при данном зависит только от Обратно, если для всех и если условное распределение в при данном х зависит только от то достаточна для .

Действительно, при сделанных предположениях совместная плотность X и равна Если достаточна, то из (20) вытекает, что условная плотность при данном х зависит только от Обратно, предположим, что для некоторого априорного распределения с при всех условное распределение при данном х зависит только от Тогда

откуда для получаем выражение, показывающее достаточность

Каждое байесовское решение зависит только от условного распределения при данном х (см. задачу 8) и, следовательно, от Так как обычно байесовские решения и их пределы образуют существенно полный класс, то это же верно и в применении к решающим процедурам, основанным на К этому заключению мы пришли также (и более непосредственно) в начале настоящего раздела.

Ограничиваясь достаточными статистиками, мы сокращаем данные. Желательно это сокращение сделать максимальным. Чтобы проиллюстрировать различные возможности, рассмотрим еще раз пример 13. Каково бы ни было целое меньшее пара где образует достаточную статистику, так как условное распределение при условии не зависит от По той же причине и полная выборка также является достаточной статистикой. Однако приводит к большему сокращению, чем любая из вышеприведенных статистик и чем вообще любая, которая может быть построена. Достаточная статистика называется минимальной, если данные не допускают дальнейшей редукции без потери свойства достаточности. Для биномиального распределения, например, минимальной достаточной статистикой будет (задача 17). Этим иллюстрируется тот факт, что достаточная статистика, найденная с помощью критерия факторизации, в конкретных примерах часто оказывается минимальной.

10. Задачи

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление