Главная > Обработка сигналов, моделирование > Проверка статистических гипотез
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2. Точная постановка проблемы решения

Методы, требующиеся для решения какой-либо отдельной статистической задачи, существенно зависят от трех элементов, которые ее определяют: класса которому, по предположению, принадлежит распределение структуры пространства возможных решений формы функции потерь Чтобы прийти к конкретным результатам, необходимо, следовательно, сделать определенные предположения относительно этих элементов. С другой стороны, если рассматривать теорию, как нечто большее, чем собрание изолированных результатов, предположения должны быть достаточно широкими, с тем чтобы или быть часто применимыми или выделять классы задач, допускающих единообразный подход.

Рассмотрим сначала класс Точные числовые предположения относительно вероятностей или вероятностных распределений обычно не могут быть оправданы. Однако часто можно допустить, что некоторые события имеют равные вероятности, а некоторые другие статистически независимы. Предположения другого типа касаются относительной величины некоторых инфинитезимальных вероятностей, например вероятностей наступления событий во временном или пространственном интервале при длине интервала, стремящейся к нулю. Приводимые ниже классы распределений построены на основании предположений только такого рода и, следовательно, могут встретиться в большом числе случаев.

Биномиальное распределение с

есть распределение числа успехов в независимых испытаниях, в каждом из которых вероятность успеха равна Распределение Пуассона с

это — распределение числа событий, происходящих в фиксированном временном или пространственном интервале, при условии, что вероятность наступления более чем одного события в короткий промежуток времени является величиной более высокого порядка малости, чем вероятность наступления одного события, и что числа событий в непересекающихся интервалах статистически независимы. При этих предположениях процесс появления событий называется пуассоновским процессом

Нормальное распределение с плотностью вероятно

при весьма общих предположениях, которые уточняются центральной предельной теоремой, является приближенным распределением суммы большого числа независимых случайных величин, каждая из которых мала по сравнению со всей суммой.

Мы рассмотрим теперь структуру пространства решений Большое разнообразие возможностей указывается следующими примерами.

Пример 1. Пусть выборка из совокупности с одним из распределений (1) -(3), т. е. величины X независимы и одинаково распределены по одному из этих законов. Пусть 0 обозначает или пару соответственно, и пусть действительная функция .

(I) Если хотят решить, превосходит у некоторое определенное значение или нет, то выбирают одно из решений: или . В отдельных приложениях эти решения могут соответствовать принятию или отклонению партии товаров или опытного образца самолета (по его пригодности к испытательным полетам), или нового способа лечения, предложенного в качестве лучшего по сравнению с принятым, и т. д. Функция потерь зависит от области применений. Типично, однако, что потеря равна нулю, если выбрано правильное решение, в то время как при неправильном решении потери являются возрастающими функциями

(II) В силу сложности пространства решений значительно более трудной проблемой является отыскание числовой оценки для у.

Здесь решением которое принимает статистик, служит действительное число — оценка у, и функцией потерь может быть, например, — строго возрастающая функция ошибки

(III) Промежуточное положение занимает случай выбора между тремя альтернативными решениями — и например, принятием нового способа лечения, отклонением его или рекомендацией дальнейшего его изучения.

Различия, иллюстрируемые этим примером, лежат в основе одного из главных способов классификации статистических методов. Задачи с двумя решениями, такие, как (I), формулируются обычно в терминах проверки гипотезы, которая должна быть принята или отвергнута (см. главу 3). Мы будем иметь дело, в значительной степени, с теорией именно этого класса задач. Другой важной ветвью статистики является теория точечных оценок, занимающаяся такими проблемами, как (II). Исследование процедур со многими решениями, таких, как (III), начато только в последние годы.

Пример 2. Предположим, что даны выборки из нормальных совокупностей

(I) Рассмотрим сначала случай Поставим вопрос о том, имеется ли существенное различие между этими двумя совокупностями. Вопрос имеет ту же самую структуру, что и задача (III) в предыдущем примере. Здесь производится выбор между тремя решениями — где А — наперед заданное число. Аналогичная проблема, включающая возможное решение, возникает в общем случае совокупностей. Здесь нужно произвести выбор между решениями (совокупности не отличаются существенно одна от другой) и наибольшее из средних.

(II) Близкой к рассмотренной является задача о расположении совокупностей в порядке возрастания соответствующих средних значений.

(III) Пусть задан некоторый стандрат Задача состоит в том, чтобы определить, превосходят ли этот стандарт какие-либо из средних значений (и какие именно).

Пример 3. Рассмотрим два распределения, для определенности — два распределения Пуассона Предположим, что меньше но в остальном параметры неизвестны. Пусть случайные величины распределены независимо, каждая в соответствии с законом или Требуется каждую из величин отнести к одному из двух классов, соответственно теоретическому распределению. Здесь функция потерь могла бы равняться числу ошибок в классификации, умноженному на некоторую функцию от Степень сложности, которой может достигать эта задача, а также возникающие трудности, как математические, так и концептуальные, иллюстрируются усилиями антропологов разделить человечество на некоторое число однородных с помощью изучения частот различных групп крови и других генетических характеристик.

Все рассмотренные до сих пор проблемы могли бы быть названы проблемами действия. В каждой из них предполагалось, что если 0 известно, то лишь одно решение будет правильным, т. е. при любом данном 0 существует единственное для которого Однако не все статистические задачи ставятся так отчетливо. Часто вопрос заключается в удобном сводном

описании данных или в указании содержащейся в них информации относительно неизвестного параметра или распределения. Эта информация используется затем в различных обстоятельствах, но она не является единственной основой какого-либо определенного решения. В таких случаях в статистической проблеме ударение делается на выводах, а не на решении, хотя формально проблема может рассматриваться как проблема решения: для этого результат вывода должен интерпретироваться как решение, которое следует принять. Важный класс подобных задач составляют оценки интервалами; для иллюстрации ниже приводится пример.

Пример 4. Пусть является выборкой из нормальной совокупности и пусть решение состоит в выборе интервала и утверждении, что он содержит Предположим далее, что процедура решения допускает только интервалы математическое ожидание длины которых при всех и а не превосходит ко, где некоторая заранее заданная константа. Функцию потерь можно было бы положить равной нулю, если решение правильное, а в остальных случаях сделать зависящей от относительного расположения интервала и истинного значения В таком случае данному распределению соответствует несколько правильных решений.

Нам остается обсудить выбор функции потерь. Вероятно, что из трех элементов, определяющих статистическую проблему, этотчуточняется с наибольшим трудом. Даже в простейшем случае, когда все потери в конечном счете сводятся к денежным, трудно рассчитывать на то, что мы сумеем оценить все как немедленные, так и более отдаленные следствия некоторого действия. Часто можно упростить положение, принимая во внимание только некоторые черты функции потерь. В качестве иллюстрации возьмем пример 1 (I). Пусть для для Тогда функция риска равна

и, таким образом, зависит только от двух вероятностей ошибок, веса при которых могут быть подобраны с учетом сравнительного значения этих ошибок. Аналогично в примере 3 можно ограничиться числом ошибок в классификации.

К сожалению, подобное естественное упрощение не всегда возможно. Отсутствие точных сведений приводит к необходимости выбирать функцию потерь некоторым условным образом. При этом математическая простота рассматривается как важное обстоятельство. Так, в проблемах точечной оценки, подобных рассмотренной в примере 1 (II), оценивая действительную

функцию обычно используют квадрат ошибки или, несколько более общим образом, выражение

Будучи весьма простым математически, оно может восприниматься как приближение к истинной функции потерь в предположении, что при каждом фиксированном 0 функция дважды дифференцируема по для всех 0, и что ошибка невелика.

Часто случается, что в рамках одной задачи возможны различные типы потерь, для которых трудно подыскать общую единицу измерения. Вернемся еще раз к примеру 1 (I) и допустим, что представляет собою значение у, получающееся при использовании в некоторой ситуации (например, в медицине, сельском хозяйстве или промышленности) стандартного способа действий. Задача состоит в том, чтобы сравнить какой-то новый способ неизвестным 7) с указанным стандартным способом. Отклонение нового метода, когда он превосходит старый, или принятие его в противоположном случае влекут за собою, очевидно, весьма различные последствия. Иногда в таких случаях бывает удобно оперировать по отдельности с несколькими компонентами, скажем Предположим, в частности, что и что соответствует более существенной стороне дела. Тогда можно ограничить эту компоненту риска, т. е. наложить условие вида

и при этом условии минимизировать другую компоненту. Эту процедуру иллюстрирует пример 4. Длина интервала (измеренная в -единицах) является одной компонентой функции потерь. Другую образуют потери, возникающие тогда, когда этот интервал не покрывает истинное значение

<< Предыдущий параграф Следующий параграф >>
Оглавление