Лекция: Одноагентная или мультиагентная.
Различие между одноагентными и мультиагентными вариантами среды на первый взгляд может показаться достаточно простым. Например, очевидно, что агент, самостоятельно решающий кроссворд, находится в одноагентной среде, а агент, играющий в шахматы, действует в двухагентной среде. Тем не менее при анализе этого классификационного признака возникают некоторые нюансы. Прежде всего, выше было описано, на каком основании некоторая сущность может рассматриваться как агент, но не было указано, какие сущности должны рассматриваться как агенты. Должен ли агент А (например, водитель такси) считать агентом объект В (другой автомобиль), или может относиться к нему просто как к стохастически действующему объекту, который можно сравнить с волнами, набегающими на берег, или с листьями, трепещущими на ветру? Ключевое различие состоит в том, следует ли или не следует описывать поведение объекта В, как максимизирующее личные показатели производительности, значения которых зависят от поведения агента А. Например, в шахматах соперничающая сущность В пытается максимизировать свои показатели производительности, а это по правилам шахмат приводит к минимизации показателей производительности агента А. Таким образом,
Проблемная среда | Наблюдаемая полностью или частично | Детермннированная, стратегическая или стохастическая | Эпизодическая или пос-ледовательная | Статическая, динамичес- кая или полудинами- ческая | Дискретная или непрерывная | Одноаreнтная или мулътнаreнтная |
Решение кроссворда | Полностью наблюдаемая | Детерми- нированная | Последо-вательная | Craтическая | Дискретная | Одноаген-тная |
Игра в шахма-ты с кон- тролем времени | Полностью наблюдаемая | Стохасти- ческая | Последо-вательная | Полудина- мическая | Дискретная | Мульти- агентная |
Игра в покер | Частично наблю- даемая | Стохасти- ческая | Последо-вательная | Craтическая | Дискретная | Мульти- агентная |
Игра в нарды | Полностью наблю- даемая | Стохасти- ческая | Последо-вательная | Статическая | Дискретная | Мульти- агентная |
Вождение такси | Частично наблю- даемая | Стохасти- ческая | Последо-вательная | Динами- ческая | Непрерыв- ная | Мульти- агентная |
Медицинская диаг-ностика | Частично наблю- даемая | Стохасти- ческая | Последо-вательная | Динами- ческая | Непрерыв- ная | Одноаген-тная |
Анализ изо-бражений | Полностью наблю- даемая | Детерми- нированная | Эпизоди — ческая | Полудина- мическая | Непрерыв- ная | Одноаген-тная |
Робот- сор-тировщик деталей | Частично наблю- даемая | Стохасти- ческая | Эпизоди — ческая | Динами- ческая | Непрерыв ная — | Одноаген-тная |
Контроллер очистительной уста-новки | Частично наблю- даема | Стохасти- ческая | Последо-вательная | Динами- ческая | Непрерыв ная — | Одноаген-тная |
Интерактив- ная програм — ма, обучаю- щая англий скому языку | Частично наблю- даема | Стохасти- ческая | Последо-вательная | Динами- ческая | Дискретная | Мульти- агентная |
шахматы — это конкурентная мультиагентная среда. А в среде вождения такси, с другой стороны, предотвращение столкновений максимизирует показатели производительности всех агентов, поэтому она может служить примером частично кооперативной мультиагентной среды. Она является также частично конкурентной, поскольку, например, парковочную площадку может занять только один автомобиль. Проблемы проектирования агентов, возникающие в мультиагентной среде, часто полностью отличаются от тех, с которыми приходится сталкиваться в одноагентных вариантах среды; например, одним из признаков рационального поведения в мультиагентной среде часто бывает поддержка связи, а в некоторых вариантах частично наблюдаемой конкурентной среды рациональным становится стохастическое поведение, поскольку оно позволяет избежать ловушек предсказуемости.
Как и следует ожидать, наиболее сложными вариантами среды являются, частично наблюдаемые, стохастические, последовательные, динамические, непрерывные и мультиагентные. Кроме того, часто обнаруживается, что многие реальные ситуации являются настолько сложными, что неясно даже, действительно ли их можно считать детерминированными. С точки зрения практики их следует рассматривать как стохастические. Проблема вождения такси является сложной во всех указанных отношениях. В табл. 9.4 перечислены свойства многих известных вариантов среды. Следует отметить, что в отдельных случаях приведенные в ней описания являются слишком краткими и сухими. Например, в ней указано, что шахматы — это полностью наблюдаемая среда, но строго говоря, это утверждение является ложным, поскольку некоторые правила, касающиеся рокировки, взятия пешки на проходе и объявления ничьи при повторении ходов, требуют запоминания определенных фактов об истории игры, которые нельзя выявить из анализа позиции на доске. Но эти исключения из определения наблюдаемости, безусловно, являются незначительными по сравнению с теми необычными ситуациями, с которыми сталкивается автоматизированный водитель такси, интерактивная система преподавания английского языка или медицинская диагностическая система.
Таблица 9.4 Примеры вариантов проблемной среды и их характеристик.
Некоторые другие ответы в этой таблице зависят от того, как определена проблемная среда. Например, в ней задача медицинского диагноза определена как одноагентная, поскольку сам процесс развития заболевания у пациента нецелесообразно моделировать в качестве агента, но системе медицинской диагностики иногда приходится сталкиваться с пациентами, не желающими принимать ее рекомендации, и со скептически настроенным персоналом, поэтому ее среда может иметь мультиагентный аспект. Кроме того, медицинская диагностика является эпизодической, если она рассматривается как задача выбора диагноза на основе анализа перечня симптомов, но эта проблема становится последовательной, если решаемая при этом задача может включать выработку рекомендаций по выполнению ряда лабораторных исследований, оценку прогресса в ходе лечения и т.д. К тому же многие варианты среды являются эпизодическими на более высоких уровнях по сравнению с отдельными действиями агента. Например, шахматный турнир состоит из ряда игр; каждая игра является эпизодом, поскольку (вообще говоря) от ходов, сделанных в предыдущей игре, не зависит то, как повлияют на общую производительность агента ходы, сделанные им в текущей игре. С другой стороны, принятие решений в одной и той же игре, безусловно, происходит последовательно.
Программный код, который относится к рассматриваемым агентам, включает реализации многих вариантов среды, наряду с имитатором среды общего назначения, который помещает одного или нескольких агентов в моделируемую среду,
наблюдает за их поведением в течение определенного времени и оценивает их действия в соответствии с заданными показателями производительности. Такие эксперименты часто выполняются применительно не к одному варианту среды, а ко многим вариантам, сформированным на основе некоторого класса вариантов среды. Например, чтобы оценить действия водителя такси в моделируемой ситуации дорожного движения, может потребоваться провести много сеансов моделирования с различными
условиями трафика, освещения и погоды. Если бы мы спроектировали этого агента для одного сценария, то могли бы лучше воспользоваться специфическими свойствами данного конкретного случая, но не имели бы возможности определить приемлемый проект решения задачи автоматизированного вождения в целом. По этой причине программный код включает также генератор вариантов среды для каждого класса вариантов среды; этот генератор выбирает определенные варианты среды (с некоторой вероятностью), в которых выполняется проверка агента. Например, генератор вариантов среды отстающего студента инициализирует случайным образом такие исходные данные, как распределение нахождение преподавателя в институте и его возможность принять у студента экзамен. Дело в том, что наибольший интерес представляет то, какую среднюю производительность будет иметь данный конкретный агент в некотором классе вариантов среды. Рациональный агент для определенного класса вариантов среды максимизирует свою среднюю производительность.