Лекция: Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.

 

1. Уже в процесс зарождения человеческого общества возникла необходимость согласования совместных действий (добывание пищи, охота, отражение врагов и др.), что предполагает средства общения между членами коллективных действий. Вначале это были жесты, мимика, отдельные звуки, а затем — устная и письменная речь, средства связи. Люди стали иметь возможность обмениваться сведениями, опытом знаниями между собой, а также передавать все это, что сегодня называется информацией, из поколения в поколение. Мы получаем информацию из окружающего мира с помощью органов чувств и путем обработки ее нашим мозгом.

Сообщения и информация – это центральные понятия информатики. Хотя в обыденной жизни эти понятия употребляются как синонимы, но в более строгом пономании между ними есть определенные отличия. Эти отличия проявляются уже в токой фразе, “из этого сообщения я не получил никакой информации”.

Так вот первое положение «Информация – это знания человека. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и непонятными» — является содержательным подходом к измерению информации.

Данный подход основывается на том, что должны присутствовать какая-то неопределенность в знаниях. Навпример. Вы бросаете монету, загадывая, что выпадет: орел или решка? Есть всего два варианта возможного реального результата бросания монеты. Причем, ни один из этих вариантов не имеет преимущества перед другим. В таком случае говорят, что они равноверорятны.

Так вот, в этом случае перед подбрасыванием монеты неопределенность знаний о результате равна 2.

Следовательно: неопределенность знаний о некотором событии – это количество возможных результатов события (бросания монеты, кубика; вытаскивание жребия).

Вернемся к примеру с монетой. После того, как вы бросили монету и посмотрели на нее, вы получили зрительное сообщение, что выпал, например, орел. Произошло одно из двух возможных событий. Неопределенность знаний уменьшилась в 2 раза: было 2 варианта, остался один. Значит, узнав результат бросания монеты, вы получили 1 бит информации.

А сейчас попробуем получить формулу, по которой вычимсляется количество информации, содердащейся в сообщении о том, что произошло одно из множества равновероятных событий.

Обозначим буквой N количество возможных событий, или, как мы это еще называли, — неопределенность знаний. Буквой i будем обозначать количество информации в сообщении о том, что произошло одно из N событий.

2i=N

В примере с монетой N=2, i=1.

А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и он называется алфавитным подходом.

Проще всего разобраться на примере текста, написанного на русском языке.

Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавите также следует включить и пробел.

Полное число символов алфавита принято называть мощностью алфавита. Будем обозначать буквой N. Например, мощность алфавита из русских букв и дополнительных символов равна 54.

Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита.

В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет i бит информации.

2i=N

Для N = 54, используя таблицу количества информации в сообщении об одном из N равновероятных событий получаем i=5,755бит.

Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста и от мощности алфавита.

Например. Посчитать количество информации одной странице книги, если на одной странице 50 строк по 60 символов в каждой.

50*60=3000 знаков, следовательно объем равен 5,755*3000=17265 бит.

Количество информации, содержащееся в символьном сообщении, равно K*i, где K – число символов в тексте сообщения, а I – информационный вес символа, который находится из уравнения 2i=N, где N – мощность используемого алфавита.

Для опредиления количества информации используется единица измерения – бит (от англ. Bit, образовано от сочетания binary digit —двоичная цифра). Один бит – количество информации, содержащееся в сообщении «да» или «нет» (в двоичном коде «1» и «0»).

Так как бит – это наименьшее количество информации, то для измерения больших объемов применяются более крупные единицы измерения. Отношение между единицами следующие. 1байт- 8 бит

1килобайт (Кбайт)- 2610бита==1024 байта

1мегабайт (Мбайт)- 1024 Кбайт

1гигабайт (Гбайт)- 1024 Мбайт

еще рефераты
Еще работы по информатике