Лекция: Элементы теории информации

Как видно из сказанного, широко используемый на практике термин «информация», содержание которого кажется очевидным, тем не менее, весьма трудно поддается точному определению. Как было показано, материалистическое толкование этого понятия предполагает, что передача информации имеет место тогда, когда некоторый объект (источник) посылает сигналы какого-либо вида другому объекту (приемнику), имеющему кибернетическую природу, т. е. способному использовать содержание этих сигналов для управления. С этих позиций можно считать, что информация есть содержание указанных сигналов, а информационные процессы могут протекать только в кибернетических системах.

Таким образом, как уже было показано, технически передача информации может быть реализована только при наличии системы связи (канала связи) между источником и приемником. Подлежащее передаче сообщение должно быть предварительно закодировано в виде сигналов, а затем передано по линии связи и получено приемником, в котором сигналы декодируются, т. е. преобразуются в форму, удобную для использования. Передатчик, линия связи и приемник являются каналом связи, транспортирующим информацию от источника сообщений к их получателю.

В зависимости от вида передаваемых по каналу сигналов содержащаяся в них информация может быть представлена в непрерывной (аналоговой) или дискретной (прерывистой) форме. При использовании непрерывных сигналов значение сигнала в любой момент времени соответствует некоторому элементу сообщения, т. е. содержит некоторую информацию. Дискретные сигналы несут в себе информацию только в некоторые моменты времени (обычно в течение времени существования сигнала), а в промежутках сигнал не содержит полезной информации (или отсутствует вообще).

В практике передачи информации может возникнуть необходимость в преобразовании несущих информацию сигналов из одной формы в другую, технически осуществляемом с помощью аналого-цифровых (АЦП) или цифро-аналоговых (ЦАП) преобразователей.

Важнейшей задачей теории информации является разработка методов оценки количества информации и способов его измерения. Существует много подходов к решению этой проблемы, которые интересуют нас (применительно к задачам настоящей главы) с точки зрения определения понятия «единица информации».

Материалистический подход предполагает, что содержащаяся в сообщениях информация является результатом каких-то событий, произошедших в источнике сообщений. В общем случае указанные события носят вероятностный характер, и для сравнения таких источников информации требуется численная оценка неопределенности получения возможных результатов происходящих в них событий.

Если, например, рассмотреть источник, в котором результаты событий равновероятны, то можно предположить, что неопределенность Н одиночного результата (до его реализации) зависит от общего количества возможных результатов n, т. е. что H = f(n). В качестве функциональной зависимости, связывающей n и Н, принята связь вида

Основание операции логарифмирования в этой формуле может быть любым, однако, по причинам, которые станут понятны далее, принято использовать в качестве основания логарифмирования число 2.В этом случае при n = 2, т. е. когда событие имеет два равновероятных исхода, неопределенность события

Неопределенность такого события принята в качестве единицы неопределенности — двоичной единицы, или бита (от английского словосочетания «binary unit» — двоичная единица).

Для связи неопределенности результатов сообщения с их вероятностью представим формулу для Н в виде

 

Поскольку 1/n есть вероятность Р любого из равновероятных результатов события, то

 

.

 

Если имеет место событие, которое может иметь результаты М1 ,..., Мn, с вероятностями Р1 ,..., Рn соответственно, то мера его неопределенности (мера разнообразия события) может быть выражена формулой

 

Полученное выражение совпадает с видом выражения для энтропии в статистической физике, поэтому величину Н называют информационной энтропией (или энтропией) события. Можно доказать, что энтропия Н события всегда положительна и может быть равна нулю только в том случае, когда в каком либо событии с вероятностями исходов P1,..,Pn одна из вероятностей Р, равна единице, а остальные — нулю. Другими словами, если возможен лишь один результат события, то неопределенность события Н= 0.

С этих позиций, рассматривая сообщение как информацию о результате события, можно предположить, что количество информации в таком сообщении будет тем большим, чем большей была неопределенность сообщения до его получения.

Исходя из этого количество I информации можно оценить по формуле где Р’ — вероятность исхода события после поступления сообщения о нем, а Р — вероятность исхода события до поступления сообщения. Поскольку Р’ всегда равно единице (событие уже имеет соответствующий исход), то

Учитывая, что при передаче сообщений всегда используется набор некоторых символов (например, алфавит, состоящий из букв или цифр), можно оценить количество информации, содержащееся в сообщении из m элементов, а также количество информации, приходящейся на один элемент текста, используя зависимость

Здесь n — количество элементов в используемом для передачи сообщений алфавите; — вероятность появления в тексте соответствующего элемента алфавита (вероятности предполагаются неравными). Очевидно, что в сообщении, состоящем из m элементов, количество информации I = Iэл m.

Если, например, алфавит — набор используемых для передачи сообщений символов — содержит лишь два символа (единицу и ноль или точку и тире), появление которых равновероятно, т. е. Р=0,5, то на один элемент сообщения приходится количество информации

 

I = -2* 0,5 log 0,5 = 1.

 

Таким образом, единицей количества информации (как и неопределенности) является бит — количество информации, содержащейся в сообщении о результате события, связанного с одним актом выбора из двух равновероятных возможностей.

В следующих параграфах будут более подробно рассмотрены способы представления информации в ЦВМ. Здесь только отметим, что в качестве адресуемой, неделимой порции информации, из которой формируются подлежащие обработке в ЦВМ объекты (слова), используется байт — укрупненная единица, содержащая 8 бит. Для оценки больших объемов информации введены еще более крупные единицы информации: килобайт (Кбайт) = 210 = 1024 6айт., мегабайт (Мбайт) = 220 = 1048 576 байт и т.д.

Рассмотренный способ оценки количества информации никак не учитывает содержание сообщений, однако применительно к рассматриваемым далее вопросам вполне приемлем, поскольку является основой для построения эффективных способов кодирования, хранения и обработки информации в ЦВМ.

еще рефераты
Еще работы по информатике