Лекция: Количественная мера информации. Энтропия дискретных и непрерывных сообщений.

Информация наряду с материей и энергией является первичным понятием нашего мира и поэтому в строгом смысле не может быть определена. Можно лишь перечислить ее основные свойства, например такие как: 1) информация приносит сведения, об окружающем мире которых в рассматриваемой точке не было до ее получения;2) информация не материальна, но она проявляется в форме материальных носителей дискретных знаков или первичных сигналах;3) знаки и первичные сигналы несут информацию только для получателя способного распознать. В узком практическом смысле под информацией обычно понимают совокупность сведений об окружающем мире являющихся объектом хранения, передачи и преобразования. Информация, основанная на однозначной связи знаков или сигналов с объектами реального мира, называется семантической или смысловой. Информация, заключенная в характере (порядке и взаимосвязи) следования знаков сообщающей называется синтаксической. Информация передается, и храниться в виде сообщений. Под сообщением понимают совокупность знаков или первичных сигналов содержащих информацию. Для того чтобы сообщение можно было передать получателю, необходимо воспользоваться некоторым физическим процессом, способным с той или иной скоростью распространяться от источника к получателю сообщения. Изменяющийся во времени физический процесс, отражающий передаваемое сообщение называется сигналом. Сообщения могут быть функциями времени (когда информация представлена в виде первичных сигналов: речь, музыка) и не является ими (когда информация представлена в виде совокупности знаков). Сигнал всегда является функцией времени. В зависимости от того, какие значения могут принимать аргумент (время t) и уровни сигналов их делят на 4 типа. 1) Непрерывный или аналоговый сигналы (случайные сигналы этого типа называются непрерывными случайными процессами). Они определены для всех моментов времени и могут принимать все значения из заданного диапазона. Чаще всего физические процессы, порождающие сигналы являются непрерывными. Этим и объясняется второе название сигналов данного типа аналоговый т.е. аналогичные порождающим процессам. 2) Дискретизированный или дискретно непрерывные сигналы (случайные сигналы этого типа называют процессами с дискретным временем или непрерывными случайными последовательностями). Они определены лишь в отдельные моменты времени и могут принимать любые значения уровня. Временной интервал t между соседними отсчетами называется шагом дискретизации. Часто такие сигналы называют дискретными по времени. 3) Дискретные по уровню или квантованные сигналы (случайные сигналы этого типа называют дискретными случайными процессами). Они определены для всех моментов времени и принимают лишь разрешенные значения уровней отделенные от друг друга на величину шага квантования x=xk+1+xk 4) Дискретные по уровню и по времени сигналы (случайные сигналы этого типа называют дискретными случайными последовательностями). Они определены лишь в отдельные разрешенные моменты времени и могут принимать лишь разрешенные значения уровней. Основополагающие статьи Клода Шеннона «Математическая теория связи», Колмогорова, Добрушина, Хоркевича, Ханчина и др. В каждом элементарном сообщении содержится для его получателя определенная информация совокупность сведений о состоянии дискретного источника сообщения. Определяя количественную меру этой информации, мы совершенно не будем учитывать ее смыслового содержания, так же ее значения для конкретного получателя. Очевидно, что при отсутствии сведений о состоянии источника имеется неопределенность относительно того, какое сообщение ui из числа возможных им выбрано, а при наличии этих сведений данная неопределенность полностью исчезает. Естественно количество информации содержащейся в дискретном сообщении измерять величиной исчезнувшей неопределенности. Введем меру этой неопределенности, которую можно рассматривать и как меру количественной информации. Мера должна удовлетворять ряды естественных условий, одним из них является необходимость ее монотонного возрастания с увеличением возможности выбора, т.е. объема алфавита источника N. Кроме того, желательно, чтобы вводимая мера обладала свойством адетивности заключающееся в следующем: если 2 независимых источника с объемами алфавита N и M рассматривать как один источник, одновременно реализующий пары состояний ni и mi то в соответствии с принципом адетивности полагают, что неопределенность объединенного источника равна сумме неопределенностей исходных источников. Поскольку объемы алфавита объединенного источника =N M то искомая функция при равной вероятности состояний источников должна удовлетворять условию f(N M)=f(N)+f(M). Можно математически строго показать, что единственной функцией, при перемножении аргументов которой значение функций складываются, является логарифмическая функция. Поэтому перечисленные требования выполняются, если в качестве меры неопределенности источника с равновероятными состояниями и характеризующего его ансамбляU принять логарифм объема алфавита источника H(U)=log(U). Впервые данная мера была предложена Хартли в 1928г. Основание логарифма в не имеет принципиального значения и определяет только масштаб или единицу количества информации. Чаще всего в качестве основания используют число 2, при этом единица количества информации называется двоичной единицей или битом, и представляет собой информацию, содержащуюся в одном дискретном сообщении источника равновероятных сообщений с объемом алфавита равным двум. При выборе в основания логарифма равным 10 получаем десятичную единицу называемую дитом. Иногда используют натуральную единицу количества информации называемую натом, при этом основание логарифма равно е=2,7. Рассматриваемая мера количества информации может иметь лишь ограниченное применение, поскольку предполагает равную вероятность выбора источником любого из возможных его состояний. В более общем случае, когда вероятности различных состояний источника не одинаковы степень неопределенности конкретного состояния зависит не только от объема алфавита источника, но и от вероятности этого состояния. В такой ситуации количество информации, содержащееся в одном дискретном сообщении uk целесообразно определить как функцию вероятности появления этого сообщения P(uk) и характеризовать величиной i(uk)=-logP(uk). Основание логарифма в выбирается из тех же соображений что и в предыдущем случае. Однако, теперь количество информации содержащееся в дискретном сообщении зависит от степени неожиданности этого сообщения характеризуемой вероятностью его появления. Количество информации в сообщении тем больше, чем оно более неожиданно. Если источник выдает последовательность зависимых между собой элементарных сообщений, то наличие предшествующих сообщений может изменить вероятность последующего а, следовательно, и количество информации в нем. Определения количества информации являются случайной величиной, поскольку сами сообщения являются случайными. Его распределение вероятностей определяется распределением вероятностей сообщений в данном ансамбле для цифровой характеристики всего ансамбля или источника сообщения используется математическое ожидание количества информации в отдельных сообщениях называемых энтропией: H(U)=-iP(ui)log P(ui) Чем больше энтропия источника, тем больше степень неожиданности выдаваемых им сообщений в среднем, т.е. тем более неопределенным является ожидание сообщений. Свойства энтропии: 1) Энтропия любого дискретного ансамбля не отрицательна H(U)³0 (1.5). Равенство нулю возможно лишь в том случае, когда источник генерирует одно единственное сообщение с вероятностью Р=1 в этом случае вероятности других сообщений равны нулю. Не отрицательность следует из того, что количество информации в каждом из возможных сообщений источника определенных в соответствии формулой не отрицательно. 2) Пусть N — объем алфавита дискретного источника, тогда H(U)£logN. Причем равенство имеет место, когда все сообщения источника равновероятные. 3) Энтропия объединения нескольких независимых статистических источников сообщений равна сумме энтропии исходных источников — свойство аддитивности энтропии. Не теряя общности, ограничимся рассмотрением объединенияU иZ с объемами алфавита соответственно N и M. Под объединением двух источниковU иZ понимают обобщенный источник сообщений (uz) характеризующейся совместными P(ui zj) всех возможных комбинаций, состояния ui — источника u, zi — источника z. Энтропия E(A), как мы ее определили, показывает неопределенность исхода опыта A. Возможна ситуация, когда в результате некоторого опыта B, который независим от A и предшествует ему, неопределенность A уменьшится. Это выражение открывает возможность численного измерения количества информации, поскольку оценивать энтропию мы уже умеем. Из него легко получить ряд следствий: Следствие 1. Поскольку единицей измерения неопределенности является бит, то в этих же единицах может быть измерено количество информации. Следствие 2. Пусть опыт B=A, т.е. мы произвели опыт A. Очевидно, что при этом полностью снимается неопределенность исхода опыта A, т.е. EA(A)=0. Тогда H=E(A), т.е. можно считать, что энтропия опыта равна информации относительно события A, которая содержится в самом опыте. Или еще одно уточнение: энтропия опыта равна той информации, которую мы получаем в результате его осуществления.

 

 

Эта формула позволяет определить среднее количество информации, содержащейся в каком-либо исходе опыта A. Информация это то, что понижает неопределенность некоторого опыта с неоднозначным исходом, равная логарифму отношения числа возможных исходов до и после (получения информации). Энтропию, таким образом, можно определить как меру недостатка информации в системе; она выражает общее количество отсутствующей информации о структуре (строении) системы. Наибольшая энтропия у равновесной полностью беспорядочной системы – о состоянии такой системы наша осведомленность минимальна. Упорядочение системы (наведение какого-то порядка) связано с получением некоторой дополнительной информации и уменьшением энтропии. Объективность информации. Одна и та же информация может иметь различную оценку с точки зрения значимости (важности, ценности) разными потребителями. Определяющей в такой оценке оказывается содержание (смысл) сообщения. Однако при решении практических задач технического характера содержание сообщения роли не играет. Например, задача телеграфной (и любой другой) линии связи – точно и безошибочно передать сообщение без анализа того, насколько ценной для получателя оказывается переданная информация. Техническое устройство не может оценить важности информации – его задача безошибочно передать или сохранить информацию. Выше мы определили информацию как результат выбора. Такое определение является объективным, а связанная с ним количественная мера информации – одинаковой для любого потребителя. Т.е. появляется возможность объективного измерения информации, при этом результат измерения – абсолютен. Это служит предпосылкой для решения технических задач. Как мы увидим далее, количество информации можно связать с числом символов (букв) в сообщении. Мы уже говорили, что информатика формулирует законы для формальных информационных процессов, т.е. таких, где смысл и ценность информации выводится за рамки рассмотрения и никак не отслеживается. Это связано с тем, что нельзя предложить абсолютной и единой для всех меры ценности информации. С точки зрения информатики страница из учебника информатики или из «Войны и мира» и страница, записанная бессмысленными значками, содержат одинаковое количество информации. Другими словами, в информатике информация отделяется от знания человека, которое связано с оценками смысла информации и которое не имеет количественной меры. По этой причине утверждение, что информация – это знание о чем-либо, является ошибочным в корне. Однако, жертвуя смысловой (семантической) стороной информации, мы получаем объективные методы измерения количества информации, а также имеем возможность описывать информационные процессы математическими уравнениями. Это очень важно для решения проблем передачи, обработки и хранения информации с помощью технических устройств.

 

еще рефераты
Еще работы по информатике