Лекция: Игры со смешанными стратегиями
Если платежная матрица не имеет седловой точки, т.е., и ни один из участников игры не может выбрать один план в качестве своей оптимальной стратегии, игроки переходят на «смешанные стратегии». При этом каждый из игроков использует в процессе игры несколько раз каждую из своих стратегий.
Вектор, каждая из компонент которого показывает относительную частоту использования игроком соответствующей чистой стратегии, называется смешанной стратегией данного игрока.
Х = (х1…хi…хm) – смешанная стратегия первого игрока.
У = (у1…уj…уn) – смешанная стратегия второго игрока.
xi, уj – относительные частоты (вероятности) использования игроками своих стратегий.
Условия использования смешанных стратегий
. (1.5)
Если Х* = (х1*….хi*…хm*) – оптимальная стратегия, выбранная первым игроком; Y* = (у1*…уj*…уn*) – оптимальная стратегия, выбранная вторым игроком, то число является ценой игры.
(1.6)
Для того чтобы число V было ценой игры, а х* и у* — оптимальными стратегиями, необходимо и достаточно выполнение неравенств
(1.7)
Если один из игроков применяет оптимальную смешанную стратегию, то его выигрыш равен цене игры V вне зависимости от того, с какими частотами будет применять второй игрок стратегии, вошедшие в оптимальную, в том числе и чистые стратегии.
Сведения задач теории игр к задачам линейного программирования.
Пример. Найти решение игры, определяемой платежной матрицей А.
А = (1.8)
y1 y2y3
Решение:
Составим двойственную пару задач линейного программирования.
Для первого игрока
(1.9)
у1 + у2 + у3 = 1 (1.10)
Освобождаясь от переменной V (цена игры), разделим левую и правую часть выражений (1.9), (1.10) на V. Приняв уj /V за новую переменную zi, получим новую систему ограничений (1.11) и целевую функцию (1.12)
(1.11)
. (1.12)
Аналогично получим модель игры для второго игрока:
(1.13)
х1 + х2 + х3 = 1. (1.14)
Приведя модель (1.13), (1.14) к форме без переменной V, получим
(1.15)
, (1.16)
где .
Если нам необходимо определить стратегию поведения первого игрока, т.е. относительную частоту использования его стратегий (х1….хi…хm), мы будем использовать модель второго игрока, т.к. эти переменные находятся в его модели выигрыша (1.13), (1.14).
Решение полученных моделей произведем в среде MS Excel 2007 с помощью надстройки “Поиск решения”. На рисунках 1, 2, 3 и 4 приведены скриншоты этапов решения задачи линейного программирования (1.11)-(1.12).
Ячеки с адресами A2:C2 выделены для переменных. В ячейках A5:A7 введены формулы (рис. 3) левых частей системы неравенств (1.11). В ячейках с адресами B5:B7 введены правые части системы неравенств (1.11). В ячейке с адресом F6 (рис. 4) введена формула целевой функции (1.12). Найденное решение с помощью надстройки MS Excel 2007 “Поиск решения” для рассматриваемого примера:. Тогда, в соответствии с (1.12), значение цены V игры равно 1 и соответственно. Т.е., для второго игрока оптимальная стратегия поведения выглядит следующим образом .
Аналогично получаем оптимальную стратегию поведения первого игрока, решая в среде MS Excel задачу линейного программирования (1.13)-(1.14). Для рассматриваемого примера оптимальная стратегия поведения первого игрока будет .
Рисунок 1.
Рисунок 2.
Рисунок 3.
Рисунок 4.
ВАРИАНТЫ ЗАДАНИЙ