Главная > Обработка сигналов, моделирование > Проверка статистических гипотез
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5. Двойная классификация: m наблюдений в клетке

В предыдущем разделе предполагалось, что эффекты факторов независимы и, следовательно, аддитивны. Однако факторы могут взаимодействовать в том смысле, что эффект одного из них зависит от интенсивности другого. Так, успех учителя зависит, например, от степени подготовленности или возраста студентов, а урожай при различных условиях орошения зависит от типа почвы и сорта выращиваемых растений. Если

отказаться от предположения аддитивности, то средние значения величин уже не будут более задаваться соотношениями (24) при но станут совершенно произвольными. Поэтому для каждой комбинации значений признаков требуется не менее наблюдений, так как в противном случае Мы рассмотрим здесь лишь простейший случай, когда при каждой комбинации значений признаков производится одно и то же число наблюдений.

Пусть независимые случайные величины, распределенные нормально с общей дисперсией и средними По аналогии с прежним случаем мы пишем

Тогда представляет собой среднее значение фактора 1 на уровне (усреднение производится по уровням фактора 2; аналогично интерпретируются и величины Величины у называются взаимодействиями, так как указывает количество, на которое совместный эффект факторов 1 и 2 превосходит сумму их индивидуальных эффектов. Рассмотрим снова гипотезу о равенстве нулю всех величин а. Тогда Из разложения

и

следует, что

и что

Наиболее мощный инвариантный критерий отвергает гипотезу, когда

Здесь параметр нецентральности распределения равен

Интерес представляет и гипотеза о независимости факторов при всех Оценки параметров по методу наименьших квадратов снова легко вычисляются. РНМ инвариантный критерий имеет критическую область (см. задачу 12)

При гипотезе статистика имеет -распределение с степенями свободы. Параметр нецентральности при любых альтернативных значениях величин у равен

Разложение полной изменчивости на компоненты в настоящем случае имеет вид

Здесь первые три суммы представляют компоненты изменчивости, связанные с величинами соответственно. Последняя компонента описывает «ошибку». Критерии для гипотезы о том, что все а, все или все у равны нулю (первая и третья из них имеют критические области (28) и (30)), получаются сравнением соответствующей суммы квадратов с последней суммой квадратов. Аналогичное разложение возможно и в случае, когда величины у априори принимаются равными нулю. Тогда третья понента, ранее связывавшаяся с у, описывает дополнительный

эффект ошибок. Само разложение принимает вид

где последний член соответствует ошибкам. Гипотеза отклоняется при

Допустим теперь, что предположение об отсутствии взаимодействия, при котором получен критерий, не оправдано. Тогда сумма квадратов в знаменателе имеет нецентральное -распределение (вместо обычного) и потому стохастически больше, чем предполагалось (см. задачу 13). Отсюда следует, что действительная вероятность отклонения меньше, чем она была бы при Это показывает, что вероятность ошибки первого рода не превосходит номинального уровня значимости, каковы бы ни были значения у. Однако мощность убывает при возрастании и стремится к нулю, когда это отношение стремится к бесконечности.

Дисперсионный анализ и связанные с ним критерии, рассмотренные в этом разделе для случая двух факторов, непосредственно переносятся на случай большего числа факторов (см., например, задачу 14). С другой стороны, если число наблюдений для каждой комбинации значений факторов (для каждой клетки) не одно и то же, то задача, хотя и охватывается схемой линейных гипотез, но становится значительно сложнее.

Чрезвычайно важными являются планы эксперимента, в которых появляются только некоторые комбинации значений факторов, поскольку тогда возможно сократить объем экспериментальной работы. Так, например, действия трех независимых факторов с уровнями каждый можно проанализировать всего с наблюдениями (вместо наблюдений, если производить по одному наблюдению для каждой комбинации уровней), если использовать метод латинских квадратов (см. задачу 15).

Рассмотренный здесь класс задач как частный случай содержит задачу двух выборок, обсуждавшуюся в главе 5, так как последняя касается одного фактора с двумя уровнями. Изложенные в этой связи вопросы о возможной неоднородности экспериментального материала и о рандомизации как средстве компенсации этой неоднородности сохраняют свою важность и в настоящей, более сложной ситуации. Если неоднородный материал разделен на несколько однородных групп, то эту классификацию можно трактовать как порожденную одним или несколькими

дополнительными факторами. Выбор этих групп является существенным шагом в определении подходящего плана эксперимента (очень простой пример обсуждался в задачах 26 и 27 главы 5).

Как защиту от возможных неоднородностей внутри подгрупп (и других отклонений от сделанных предположений) используют рандомизацию при назначении способов обработки внутри групп. Как и в случае задачи о двух выборках, сам по себе процесс рандомизации (без каких бы то ни было предположений относительно метода отбора экспериментального материала, нормальности, независимости и т. д.) позволяет строить критерии уровня а для различных интересных гипотез. Критерии перестановок в рассматриваемом случае сводятся к вычислению подходящей -статистики и сравнению этого значения с тем, которое получается применением к наблюдениям перестановок, связанных с процессом рандомизации. Как и раньше, эти критерии асимптотически эквивалентны соответствующим -критериям, которыми они, следовательно, могут быть аппроксимированы.

<< Предыдущий параграф Следующий параграф >>
Оглавление