Главная > Обработка сигналов, моделирование > Проверка статистических гипотез
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8. Задача сравнения двух выборок

Принцип инвариантности для случая двух выборок редуцирует задачу проверки гипотезы при односторонней альтернативе состоящей в том, что величины У стохастически больше величин к изучению рангов величин У. Задание величин эквивалентно указанию для составной выборки из элементов наименьшего значения, следующего за ним по величине значения и т. д., независимо от того, являются ими х или у. Поскольку в каждом множестве из результатов наблюдений занимают положений и так как, в предположении все возможных выборов положений равновероятны, то совместное распределение при гипотезе равно

для каждого множества Поэтому для любого рангового критерия с уровнем критическая область состоит в точности из точек

В задаче проверки гипотезы при альтернативе К не существует РНМ рангового критерия и, следовательно, не существует РНМ инвариантного критерия. Это следует, например, из рассмотрения двух стандартных критериев, применяемых в этой задаче, поскольку каждый из них является наиболее мощным среди всех ранговых критериев для случая некоторых альтернатив. Критерии, о которых идет речь, имеют критическую область вида

Один из них, двухвыборочный критерий Вилкоксона, получается, если в (17) положить так что гипотеза отвергается, когда сумма рангов величин у достаточно велика. Ниже мы покажем, что для достаточно малых А этот критерий является наиболее мощным при альтернативе: есть логистическое распределение Другой критерий, критерий Фишера — Иэйтса, получим, если в (17) положим где упорядоченная выборка объема из стандартного нормального распределения. Этот критерий является наиболее мощным при проверке гипотез о том, что распределения нормальны с общей дисперсией и средними когда А достаточно мало.

Чтобы доказать, что эти критерии обладают указанными свойствами, необходимо знать распределение при каждой из гипотез. Если распределения имеют плотность такие, что всегда положительна, когда положительно то совместное распределение величин задается формулой

где упорядоченная выборка объема из распределения (см. задачу 22). Рассмотрим, в частности, альтернативу сдвига

и обратимся к задаче максимизации функции мощности для малых значений А. Предположим, что плотность дифференцируема и что вероятность (18), являющуюся функцией от А, можно дифференцировать под знаком математического ожидания.

Производная вероятности (18) в точке равна

Поскольку при гипотезе вероятность каждого набора рангов дается формулой (16), то из расширенной формы леммы Неймана — Пирсона (теорема 5 главы 3) следует, что производная функции мощности в точке максимизируется, если критическая область имеет следующий вид:

Этот же критерий максимизирует и самую мощность для достаточно малых А. Чтобы это показать, обозначим 5 ранговую точку ранговую точку, на которой достигается наибольшее значение левой стороны неравенства (19). Если то мощность этого критерия равна

Поскольку существует только конечное число точек 5, то для каждого существует число такое, что точка также дает наибольшее значение величине для всех

Когда А меньше наименьшего из чисел то этот критерий также максимизирует

Если плотность нормального распределения то

и левая часть равенства (19) превращается в

где есть упорядоченная выборка из Критерием, максимизирующим мощность при этих

альтернативах (для достаточно малых А), является, следовательно, критерий Фишера — Иэйтса.

В случае логистического распределения

и, следовательно,

Поэтому локально наиболее мощный ранговый критерий тем самым отвергает гипотезу, когда Если V имеет распределение и , то

так что случайная величина равномерно распределена на (0,1). Критическая область может быть записана в виде где упорядоченная выборка объема из равномерного распределения Поскольку то этот критерий есть не что иное, как критерий Вилкоксона.

И критерий Фишера — Иэйтса, и критерий Вилкоксона являются несмещенными при односторонних альтернативах самом деле, пусть критическая функция любого критерия, определенного формулой (17) с неубывающей функцией Тогда не убывает по у, и вероятность отвергнуть гипотезу равна а для всех Из леммы 2 главы 5 следует, что этот критерий является несмещенным для всех альтернатив из

Из свойств несмещенности этих критериев вытекает, что наиболее мощные инвариантные критерии в двух рассмотренных примерах являются также наиболее мощными при соответствующих альтернативах и среди всех инвариантных и несмещенных критериев. Следовательно, РНМ критерий может не существовать даже, если, помимо ограничения инвариантности, наложить еще условие несмещенности. Аналогично и применение одного только принципа несмещенности не приводит к решению, что мы уже видели при обсуждении критериев, основанных на перестановках в разделе 8 главы 5. Отказ же от этих принципов (от одного или от обоих сразу) оставляет проблему не только без решения, но даже и без формулировки. Одна из возможных формулировок (строгость) будет рассматриваться в гл. 8. Однако отыскание наиболее строгого критерия в задаче двух выборок остается открытой проблемой.

Хотя оптимальные свойства не установлены ни для одного из двух выборочных критериев, оба упомянутых выше критерия представляются довольно удовлетворительными с практической точки зрения (точно так же, как и другой такой критерий, критерий Ван-дер-Вардена с критической областью (17), в которой где функция распределения стандартного нормального распределения). Даже тогда, когда нормальны с общей дисперсией, эти критерии имеют мощность, близкую к мощности -критерия.

Чтобы получить численное сравнение этих критериев, предположим, что обе выборки имеют одинаковый объем, и рассмотрим отношение числа наблюдений, требуемых двумя критериями для получения одной и той же мощности при одних и тех же альтернативах. Пусть объемы выборки, требуемые одним из ранговых критериев и -критерием соответственно, и предположим (что верно для рассматриваемых критериев), что отношение стремится к пределу при не зависящему от Тогда называется асимптотической эффективностью рангового критерия по отношению к -критерию. Поэтому, если, в частности, то ранговый критерий требует примерно в два раза больше наблюдений для достижения той же мощности, что дает -критерий.

В частном случае критерия Вилкоксона оказывается равным если нормальные распределения с одинаковой дисперсией. В случае, когда не предполагаются нормальными, но отличаются только сдвигом, эффективность зависит от вида распределений. Эта эффективность всегда , но может превысить 1 и даже быть бесконечной. Для критерия Фишера — Иэйтса сравнение оказывается еще более благоприятным. Его асимптотическая эффективность по отношению к -критерию всегда 1, когда отличаются только сдвигом, и равна 1 в частном случае нормального распределения Тот же результат справедлив и для критерия

Ван-дер-Вардена, который асимптотически эквивалентен критерию Фишера — Иэйтса.

Упомянутые результаты не зависят от предположения о равенстве объема выборок; они остаются также справедливыми, если стремятся к общему пределу когда Асимптотические результаты хорошо согласуются с теми, которые найдены для выборок малого объема по крайней мере в случае нормального распределения

Для проверки гипотезы при двусторонней альтернативе, состоящей в том, что величины У стохастически меньше или больше величин X, можно применить двусторонний вариант рассмотренных выше критериев. В частности, если то (17) подсказывает, что критическую область здесь можно взять в виде

Теория этих вопросов, однако, здесь находится на менее удовлетворительном уровне, чем для случая односторонних гипотез. Так, например, для двустороннего критерия Вилкоксона с и других подобных критериев даже не известно, являются ли они несмещенными при рассматриваемых двусторонних альтернативах или будут допустимыми в классе всех ранговых критериев. С другой стороны, относительная асимптотическая эффективность их та же, что и для случая односторонних альтернатив.

Гипотеза для двух выборок может также проверяться при общей альтернативе Эта задача возникает, скажем, при решении вопроса о том, можно ли два продукта, два множества данных и т. п. объединить вместе, когда ничего не известно о характере их распределений. Поскольку на альтернативные распределения не налагается ограничений, проблема остается инвариантной при всех преобразованиях

таких, что функция имеет только конечное число разрывов. Не существует критериев, инвариантных относительно этой группы, за исключением только критерия

Этот критерий, однако, не является допустимым, поскольку существуют критерии для , строго несмещенные при всех альтернативах (задача 34). Наиболее часто к рассматриваемой задаче применяется критерий Смирнова, состоящий в следующем. Пусть эмпирические функции распределения двух выборок определены по формулам

где — числа х и у, меньших или равных 2, соответственно. Тогда гипотеза отвергается если

<< Предыдущий параграф Следующий параграф >>
Оглавление