Лекция: Рациональность.
В любой конкретный момент времени оценка рациональности действий агента
зависит от четырех перечисленных ниже факторов.
. Показатели производительности, которые определяют критерии успеха.
. Знания агента о среде, приобретенные ранее.
. Действия, которые могут быть выполнены агентом.
. Последовательность актов восприятия агента, которые произошли до настоящего времени.
С учетом этих факторов можно сформулировать следующее определение рационального агента.
Для каждой возможной последовательности актов восприятия рациональный агент должен выбрать действие, которое, как ожидается, максимизирует его показатели производительности, с учетом фактов, предоставленных данной последовательностью актов восприятия и всех встроенных знаний, которыми обладает агент.
Рассмотрим пример простого агента-студента, который сдает экзамены после сессии; результат частичной табуляции такой функции агента приведены в табл. 9.1. Является ли этот агент рациональным? Ответ на этот вопрос не так уж прост! Вначале необходимо определить, в чем состоят показатели производительности, что известно о среде и какие датчики и исполнительные механизмы имеет агент. Примем перечисленные ниже предположения.
Применяемые показатели производительности предусматривают вознаграждение в одно очко за каждый сданный экзамен в каждом интервале времени в течение «срока существования» агента, состоящего из 10 дней, отпущенных учебной частью для сдачи задолжностей.
«География» среды известна заранее (рис. 9), но какой преподаватель будет принимать экзамен и с какого экзамена начинать сдавать задолжности не определены. Единственными доступными действиями являются сдача экзамена, зубрежка материала или бездействие.
Агент правильно определяет свое местонахождение и воспринимает показания датчика, позволяющие узнать, имеется ли необходимый преподаватель в институте. Автор утверждает, что в этих обстоятельствах агент действительно является рациональным; его ожидаемая производительность, по меньшей мере, не ниже, чем у любых других агентов.
Можно легко обнаружить, что в других обстоятельствах тот же самый агент может
стать нерациональным. Например, после того как с первого раза экзамен не будет сдан, агент станет совершать ненужные периодические повторные попытки сдачи экзамена этому же преподавателю с тем же объемом знаний по предмету; если показатели производительности предусматривают штраф в одно очко за каждую неудачную попытку сдачи экзамена, то агент не сможет хорошо зарабатывать. В таком случае лучший агент должен был бы учить материал или ничего не делать до тех пор, пока он будет уверен в том, что сдаст экзамен этому преподавателю или дождется другого преподавателя, которому легче пересдать экзамен, т.е. если география среды неизвестна, то агенту может потребоваться исследовать ее, а не ограничиваться прямолинейными решениями.
Этот пример показывает, что рациональность нельзя рассматривать как равнозначную совершенству. Рациональность — это максимизация ожидаемой производительности, а совершенство — максимизация фактической производительности. Отказываясь от стремления к совершенству, мы не только применяем к агентам справедливые критерии, но и учитываем реальность. Дело в том, что если от агента требуют, чтобы он выполнял действия, которые оказываются наилучшими после их совершения, то задача проектирования агента, отвечающего этой спецификации, становится невыполнимой (по крайней мере, до тех пор, пока мы не сможем заглядывать в будущее).
Поэтому наше определение рациональности не требует всезнания, ведь рациональный выбор зависит только от последовательности актов восприятия, сформированной к данному моменту. Необходимо также следить за тем, чтобы мы непреднамеренно не позволили бы агенту участвовать в действиях, которые, безусловно, не являются интеллектуальными. Например, если агент не оглядывается влево и вправо, прежде чем пересечь дорогу с интенсивным движением, то полученная им до сих пор последовательность актов восприятия не сможет подсказать, что к нему на большой скорости приближается огромный грузовик. Указывает ли наше определение рациональности, что теперь агент может перейти через дорогу? Отнюдь нет! Во-первых, агент не был бы рациональным, если бы попытался перейти на другую сторону, получив такую неинформативную последовательность актов восприятия: риск несчастного случая при подобной попытке перейти автомагистраль, не оглянувшись, слишком велик. Во-вторых, рациональный агент должен выбрать действие«оглянуться», прежде чем ступить на дорогу, поскольку такой осмотр позволяет максимизировать ожидаемую производительность. Выполнение в целях модификации будущих восприятий определенных действий (иногда называемых сбором информации) составляет важную часть рациональности. Второй пример сбора информации выражается в том исследовании ситуации, которое должно быть предпринято агентом- студентом в среде, которая первоначально была для него неизвестной.
Наше определение требует, чтобы рациональный агент не только собирал информацию, но также обучался в максимально возможной степени на тех данных, которые он воспринимает. Начальная конфигурация агента может отражать некоторые предварительные знания о среде, но по мере приобретения агентом опыта эти знания могут модифицироваться и пополняться. Существуют крайние случаи, в которых среда полностью известна заранее. В подобных случаях агенту не требуется воспринимать информацию или обучаться; он просто сразу действует правильно. Безусловно, такие агенты являются весьма уязвимыми. Рассмотрим скромного навозного жука. Выкопав гнездо и отложив яйца, он скатывает шарик навоза, набрав его из ближайшей навозной кучи, чтобы заткнуть вход в гнездо. Если шарик навоза будет удален непосредственно перед тем, как жук его схватит, жук продолжает манипулировать им и изображает такую пантомиму, как будто он затыкает гнездо несуществующим шариком навоза, даже не замечая, что этот шарик отсутствует. В результате эволюции поведение этого жука былосформировано на основании определенного предположения, а если это предположение нарушается, то за этим следует безуспешное поведение. Немного более интеллектуальными являются осы-сфексы. Самка сфекса выкапывает норку, выходит из нее, жалит гусеницу и затаскивает ее в норку, затем снова выходит из норки, чтобы проверить, все ли в порядке, вытаскивает гусеницу наружу и откладывает в нее яйца. Гусеница служит в качестве источника питания во время развития яиц. До сих пор все идет хорошо, но если энтомолог переместит гусеницу на несколько дюймов в сторону, пока сфекс выполняет свою проверку, это насекомое снова возвращается к этапу «перетаскивания» своего плана и продолжает выполнять план без изменений, даже после десятков вмешательств в процедуру перемещения гусеницы. Оса-сфекс не способна обучиться действовать в такой ситуации, когда ее врожденный план нарушается, и поэтому не может его изменить.
В успешно действующих агентах задача вычисления функции агента разбивается на три отдельных периода: при проектирования агента некоторые вычисления осуществляются его проектировщиками; дополнительные вычисления агент производит, выбирая одно из своих очередных действий; а по мере того как агент учится на основании опыта, он осуществляет другие вспомогательные вычисления для принятия решения о том, как модифицировать свое поведение.
Если степень, в которой агент полагается на априорные знания своего проектировщика, а не на свои восприятия, слишком высока, то такой агент рассматривается как обладающий недостаточной ~ автономностью. Рациональный агент должен быть автономным — он должен обучаться всему, что может освоить, для компенсации неполных или неправильных априорных знаний. Например, агент- студент, который обучается прогнозированию поведения преподавателей при сдаче экзаменов безусловно, будет учиться лучше, чем тот агент, который на это не способен. С точки зрения практики агенту редко предъявляется требование, чтобы он был полностью автономным с самого начала: если агент имеет мало опыта или вообще не имеет опыта, то вынужден действовать случайным образом, если проектировщик не оказал ему определенную помощь. Поэтому, как и эволюция предоставила животным достаточное количество врожденных рефлексов, позволяющих им прожить после рождения настолько долго, чтобы успеть обучиться самостоятельно, так и искусственному интеллектуальному агенту было бы разумно предоставить некоторые начальные знания, а не только наделить его способностью обучаться. После достаточного опыта существования в своей среде поведение рационального агента может по сути стать независимым от его априорных знаний (полученных вне опыта). Поэтому включение в проект способности к обучению позволяет проектировать простых рациональных агентов, которые могут действовать успешно в исключительно разнообразных вариантах среды.