Главная > Обработка сигналов, моделирование > Проверка статистических гипотез
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

9. Рандомизация как основа статистических выводов

Проблема проверки действенности какого-либо способа обработки рассматривалась в разделе 3 (в предположении, что результаты измерения как при обработке, так и в контрольных испытаниях, т. е. образуют выборки из нормального распределения) и в разделах 7 и 8 (без предположения нормальности).

Допустим, что для проведения эксперимента из рассматриваемой совокупности отбирается наудачу элементов (пациентов, растений или образцов материала и т. д.). Из них подвергаются обработке, а оставшиеся служат для контроля. Затем измеряется характеристика, на которую, возможно, влияет обработка, что приводит к результатам

Для определенности предположим, что обработка состоит в инъекции лекарства и что имеется ампул, предназначенных для пациентов. Результат измерения может рассматриваться как сумма двух компонент. Одна, скажем связана с пациентом. Другая — ампулой и с обстоятельствами, при которых она использована и при которых измерен соответствующий результат. Мы предположим, что случайные величины независимы, причем распределение нормально и равно если ампула содержит исследуемое лекарство, или если ампула употребляется для контроля. Принимая дополнительно, что образуют выборку из мы видим, что величины независимы и распределены нормально с общей дисперсией и средними

С точностью до обозначений их совместное распределение задается формулой (26), и гипотеза может быть проверена с помощью стандартного -критерия.

К сожалению, в реальных условиях часто невозможно добиться того, чтобы пациенты или другие экспериментальные единицы образовывали случайную выборку из соответствующей генеральной совокупности: мы рассматриваем или совокупность пациентов, находящихся в данном госпитале в данный момент, или совокупность лиц, добровольно согласившихся на эксперимент и т. п. В этом случае величины следовало бы рассматривать, как неизвестные константы, так как они не являются

результатом какой-либо определенной выборочной процедуры. Это предположение уместно и в другом контексте. Допустим, что экспериментальными единицами являются машины некоторого цеха или поля некоторой фермы. Если эксперимент имеет целью отыскать метод, наилучший именно для этого цеха или этой фермы, то только указанные единицы имеют отношение к задаче. В этом случае повторение эксперимента состояло бы в сравнении двух способов обращения с одними и теми же машинами или полями, а не с новыми, наудачу выбранными из более обширной совокупности. В этом случае сами экспериментальные единицы постоянны, а следовательно, постоянны и величины и.

При высказанных допущениях совместная плотность результатов измерений равна

Так как величины и совершенно произвольны, то ясно, что невозможно провести различие между гипотезой и альтернативами Действительно, каждое распределение из К принадлежит также и обратно. Поэтому наиболее мощный критерий уровня а для проверки при любой простой альтернативной гипотезе относительно величин отвергает с вероятностью а независимо от исхода наблюдений.

Данные, которые могут служить базисом для проверки эффективности способа обработки, могут быть получены с помощью весьма важного приема — рандомизации. Предположим, что пациентам прописаны ампул, причем наудачу, т. е. таким образом, что каждое из возможных соответствий имеет одну и ту же вероятность Тогда при каком-либо данном соответствии результаты измерений будут распределены нормально с дисперсией и средними Совместная плотность величин

равна, следовательно,

где внешнее суммирование производится по всем перестановкам чисел ( При гипотезе эта

плотность имеет вид

где

Без рандомизации появление множества больших по сравнению с могло бы быть объяснено целиком в терминах компонент связанных с отдельными пациентами. Однако если связь между случайна, то эффект этих компонент будет в среднем таков же, как и компонент, приписанных Следовательно, заметное превосходство второй выборки становится весьма неправдоподобным в условиях проверяемой гипотезы и потому должно быть приписано эффективности способа обработки.

Метод сопоставления «наудачу» способов обработки с экспериментальными единицами позволяет построить критерий уровня а для проверки гипотезы мощность которого больше а при всех альтернативах Действительная мощность этого критерия зависит, однако, не только от альтернативного значения которое измеряет эффективность способа обработки, но также и от эффектов отдельных единиц. В частности, если изменчивость величин чрезмерно велика, то она может «подавить» эффект обработки (так же, как могло бы быть при возрастании дисперсии В соответствии с этим, мощность критерия была бы мала и не позволила бы обнаруживать альтернативы

В таких случаях чувствительность эксперимента может быть повышена приемом, в точности аналогичным способу «расслоенной выборки», обсуждавшемуся в разделе 7. В рассматриваемом случае это означает замену описанного выше процесса полной рандомизации более ограниченной процедурой рандомизации. Экспериментальный материал разбивается на подгруппы, более однородные, чем материал в целом, так что внутри каждой группы разности между величинами и малы. В опытах с животными, например, этого часто можно достичь разделением по пометам. Рандомизация применяется только внутри каждой из групп. Если группа содержит единиц, то из них выбираются для обработки, а остающиеся служат для контроля

Примером такого подхода может служить метод сходных пар. В нем экспериментальные единицы делятся на пары. Единицы каждой пары стремятся подобрать возможно более похожими друг на друга во всех существенных для эксперимента отношениях, так что внутри каждой пары разность значений делается возможно меньшей. Предположим, что материал разбит на таких пар, и обозначим соответствующие единицам эффекты

(величины U предыдущих рассуждений) Пусть первый и второй члены каждой пары или подвергаются обработке, или служат для контроля, соответственно, и пусть результаты наблюдений за парой равны Если подбор пар вполне удачен, что может быть, например, когда один и тот же пациент дважды используется при исследовании снотворного средства, то при всех и плотность величин равна

РНМ несмещенный критерий для проверки при альтернативе определяется в этом случае в терминах разностей его критическая область имеет вид

(см. задачу 25).

Однако обычно не желают доверять предположению даже после объединения в пары, и снова становится необходимой рандомизация. Так как, по-видимому, объединение в пары делает изменчивость а внутри пары значительно меньшей, чем по всей совокупности, то рандомизация проводится только внутри каждой пары. Одна из единиц каждой пары выбирается с вероятностью 1/2 для обработки, в то время как остальные служат для контроля. Плотность величин в этом случае равна

При гипотезе это превращается в

где

Внешнее суммирование распространяется на точек для которых равно или или

<< Предыдущий параграф Следующий параграф >>
Оглавление