Лекция: Обучающиеся агенты.

Выше были описаны программы агентов, в которых применяются различные ме­тоды выбора действий. Но до сих пор еще не были приведены сведения о том, как создаются программы агентов. В своей знаменитой ранней статье Тьюринг проанализировал идею о том, как фактически должно осуществляться программирование предложенных им интеллектуальных машин вручную. Он оценил объем ра­боты, который для этого потребуется, и пришел к такому выводу: «Желательно было бы иметь какой-то более продуктивный метод». Предложенный им метод заключал­ся в том, что необходимо создавать обучающиеся машины, а затем проводить их обучение. Теперь этот метод стал доминирующим методом создания наиболее со­временных систем во многих областях искусственного интеллекта. Как отмечалось выше, обучение имеет еще одно преимущество: оно позволяет агенту функциониро­вать в первоначально неизвестных ему вариантах среды и становиться более компе­тентным по сравнению с тем, что могли бы позволить только его начальные знания. В данном разделе кратко представлены основные сведения об обучающихся агентах. Как показано на рис. 15 структура обучающегося агента может подразделяться на четыре концептуальных компонента. Наиболее важное различие наблюдается между обучающим компонентом, который отвечает за внесение усовершенствова­ний, и производительным компонентом, который обеспечивает выбор внешних действий. Производительным компонентом является то, что до сих пор рассматривалось в качестве всего агента: он получает воспринимаемую ин формацию и принимает решение о выполнении действий. Обучающий компонент использует информацию обратной связи от критика с оценкой того, как действует агент, и определяет, каким образом должен быть модифицирован производитель­ный компонент для того, чтобы он успешнее действовал в будущем.

 

Рис. 15 Общая модель обучающегося агентов

Проект обучающего компонента во многом зависит от проекта производитель­ного компонента. Осуществляя попытку спроектировать агента, который обучается определенным способностям, необходимо прежде всего стремиться найти ответ на вопрос: «Какого рода производительный компонент потребуется моему агенту после того, как он будет обучен тому, как выполнять свои функции?», а не на вопрос: «Как приступить к решению задачи обучения его выполнению этих функций?» После того как спроектирован сам агент, можно приступать к конструированию обучаю­щих механизмов, позволяющих усовершенствовать любую часть этого агента.

Критик сообщает обучающему компоненту, насколько хорошо действует агент с учетом постоянного стандарта производительности. Критик необходим, поскольку сами результаты восприятия не дают никаких указаний на то, успешно ли действует агент. Например, шахматная программа может получить результаты восприятия, указывающие на то, что она поставила мат своему противнику, но ей требуется стан­дарт производительности, который позволил бы определить, что это — хороший ре­зультат; сами данные восприятия ничего об этом не говорят. Важно, чтобы стандарт производительности был постоянным. В принципе этот стандарт следует рассматри­вать как полностью внешний по отношению к агенту, поскольку агент 'не должен иметь возможности его модифицировать так, чтобы он в большей степени соответ­ствовал его собственному поведению.

Последним компонентом обучающегося агента является генератор проблем. Его задача состоит в том, чтобы предлагать действия, которые должны привести к получению нового и информативного опыта. Дело в том, что если производитель­ный компонент предоставлен самому себе, то продолжает выполнять действия, ко­торые являются наилучшими с точки зрения того; что он знает. Но если агент готов к тому, чтобы немного поэкспериментировать и в кратковременной перспективе выполнять действия, которые, возможно, окажутся не совсем оптимальными, то он может обнаружить гораздо более лучшие действия с точки зрения долговременной перспективы. Генератор проблем предназначен именно для того, чтобы предлагать такие исследовательские действия. Именно этим занимаются ученые, проводя экс­перименты. Галилей не считал, что сбрасывание камней с вершины Пизанской башни является самоцелью. Он не старался просто вдрызг разбить эти булыжники или оказать физическое воздействие на головы неудачливых прохожих. Его замысел состоял в том, чтобы изменить взгляды, сложившиеся в его собственной голове, сформулировав лучшую теорию движения объектов.

Для того чтобы перевести весь этот проект на конкретную почву, вернемся к примеру автоматизированного такси. Производительный компонент состоит из той коллекции знаний и процедур, которая применяется водителем такси при выборе им действий по вождению. Водитель такси с помощью этого производительного ком­понента выезжает на дорогу и ведет свою машину. Критик наблюдает за миром и в ходе этого передает соответствующую информацию обучающему компоненту. На­пример, после того как такси быстро выполняет поворот налево, пересекая три по­лосы движения, критик замечает, какие шокирующие выражения используют другие водители. На основании этого опыта обучающий компонент способен сформулиро­вать правило, которое гласит, что это — недопустимое действие, а производитель­ный компонент модифицируется путем установки нового правила. Генератор про­блем может определить некоторые области поведения, требующие усовершенство­вания, и предложить эксперименты, такие как проверка тормозов на разных дорожных покрытиях и при различных условиях.

Обучающий компонент может вносить изменения в любой из компонентов «знаний», показанных на схемах агентов (см. рис. 11-15). В простейших случаях обучение будет осуществляться непосредственно на основании последовательности актов восприятия. Наблюдение за парами последовательных состояний среды по­зволяет агенту освоить информацию о том, «как изменяется мир», а наблюдение за результатами своих действий может дать агенту возможность узнать, «какое влияние оказывают мои действия». Например, после того как водитель такси приложит оп­ределенное тормозное давление во время езды по мокрой дороге, он вскоре узнает, какое снижение скорости фактически было достигнуто. Очевидно, что эти две зада­чи обучения становятся более сложными, если среда наблюдаема лишь частично.

Те формы обучения, которые были описаны в предыдущем абзаце, не требуют доступа к внешнему стандарту производительности, вернее, в них применяется уни­версальный стандарт, согласно которому сделанные прогнозы должны быть согла­сованы с экспериментом. Ситуация становится немного сложнее, когда речь идет об агенте, основанном на полезности, который стремится освоить в процессе обучения информацию о полезности. Например, предположим, что агент, занимающийся во­ждением такси, перестает получать чаевые от пассажиров, которые в ходе утоми­тельной поездки почувствовали себя полностью разбитыми. Внешний стандарт про­изводительности должен информировать агента, что отсутствие чаевых — это отрицательный вклад в его общую производительность; в таком случае агент получает возможность освоить в результате обучения, что грубые маневры, утомляющие пас­сажиров, не позволяют повысить оценку его собственной функции полезности. В этом смысле стандарт производительности позволяет выделить определенную часть входных результатов восприятия как вознаграждение (или штраф), непосредст­венно предоставляемое данными обратной связи, влияющими на качество поведения агента. Именно с этой точки зрения могут рассматриваться жестко закрепленные стандарты производительности, такие как боль или голод, которыми характеризует­ся жизнь животных.

Подводя итог, отметим, что агенты имеют самые различные компоненты, а сами эти компоненты могут быть представлены в программе агента многими способами, поэтому создается впечатление, что разнообразие методов обучения чрезвычайно велико. Тем не менее все эти методы имеют единый объединяющий их аспект. Про­цесс обучения, осуществляемый в интеллектуальных агентах, можно в целом охарак­теризовать как процесс модификации каждого компонента агента для обеспечения более точного соответствия этих компонентов доступной информации обратной связи и тем самым улучшения общей производительности агента.

 

еще рефераты
Еще работы по информатике