Главная > Обработка сигналов, моделирование > Оптимальные статистические решения
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 14.5. Задачи о «двуруком бандите»

Пусть нам заданы две случайные величины причем распределение X зависит от значения некоторого параметра а распределение У — от значения другого параметра Обозначим через о. в. п. X при условии и через Мы предположим также, что статистик проводит фиксированное число наблюдений На каждом из шагов он может делать наблюдение над величиной X или над величиной У. Его выбор производится последовательно в том смысле, что выбор наблюдаемой на некотором шаге случайной величины основывается на наблюденных значениях случайных величин, выбранных на предыдущих шагах. Допустим, что результаты наблюдений независимы в следующем смысле: если для наблюдения на данном шаге выбрана величина X, то независимо от выбора и результатов наблюдений на всех предыдущих шагах условная о. в. п. наблюдения на этом шаге при есть и аналогичное условие выполнено, если для наблюдения выбрана случайная величина У.

Задача статистика — найти последовательную процедуру, максимизирующую среднее значение суммы результатов всех наблюдений. Задачи такого типа называются задачами о двуруком

бандите, поскольку выбор статистика аналогичен выбору игрока, опускающего монету в одно из двух отверстий игрального автомата, известного под названием «двурукий бандит». На каждом шаге играющий должен решить, в какое из отверстий надо опустить, монету. Более серьезное приложение — это, скажем, выбор между двумя различными курсами лечения, каждый из которых можетг быть прописан пациенту.

Пусть обозначает априорное совместное распределение параметров Если эти параметры независимы согласно априорному распределению, то они останутся независимыми и в течение всей процедуры, так что каждое наблюдение X определяет новое апостериорное распределение для но не дает статистику дальнейшей информации о значении . С другой стороны, если: при априорном распределении зависимы, то каждое из наблюдений над любой случайной величиной приведет, вообще говоря, к новым апостериорным распределениям как для так и для

Для данных априорного распределения и натурального числа обозначим через максимальную из средних сумм результатов наблюдений, которые могут быть получены при различных возможных последовательных процедурах. Предполагается, что это значение конечно.

Рассмотрим процедуру, при которой первое наблюдение проводится над X и затем на оставшихся шагах принимаются оптимальные решения. Предположим, что после первого наблюдения X апостериорное совместное распределение параметров есть Тогда средняя сумма результатов оставшихся наблюдений равна . Поэтому при такой процедуре средняя сумма результатов всех наблюдений равна

Аналогично, если первое наблюдение делается над и затем осуществляется оптимальное продолжение, то средняя сумма результатов всех наблюдений есть Так как первое наблюдение должно быть проведено либо над либо над то должно удовлетворять следующему соотношению:

Математическое ожидание в (1) вычисляется относительно априорного распределения Если присоединить начальное условие для всех совместных распределений параметров то из уравнения (1) можно последовательно найти функции Рассмотрим теперь несколько частных случаев.

<< Предыдущий параграф Следующий параграф >>
Оглавление