Лекция: Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.
1. Уже в процесс зарождения человеческого общества возникла необходимость согласования совместных действий (добывание пищи, охота, отражение врагов и др.), что предполагает средства общения между членами коллективных действий. Вначале это были жесты, мимика, отдельные звуки, а затем — устная и письменная речь, средства связи. Люди стали иметь возможность обмениваться сведениями, опытом знаниями между собой, а также передавать все это, что сегодня называется информацией, из поколения в поколение. Мы получаем информацию из окружающего мира с помощью органов чувств и путем обработки ее нашим мозгом.
Сообщения и информация – это центральные понятия информатики. Хотя в обыденной жизни эти понятия употребляются как синонимы, но в более строгом пономании между ними есть определенные отличия. Эти отличия проявляются уже в токой фразе, “из этого сообщения я не получил никакой информации”.
Так вот первое положение «Информация – это знания человека. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и непонятными» — является содержательным подходом к измерению информации.
Данный подход основывается на том, что должны присутствовать какая-то неопределенность в знаниях. Навпример. Вы бросаете монету, загадывая, что выпадет: орел или решка? Есть всего два варианта возможного реального результата бросания монеты. Причем, ни один из этих вариантов не имеет преимущества перед другим. В таком случае говорят, что они равноверорятны.
Так вот, в этом случае перед подбрасыванием монеты неопределенность знаний о результате равна 2.
Следовательно: неопределенность знаний о некотором событии – это количество возможных результатов события (бросания монеты, кубика; вытаскивание жребия).
Вернемся к примеру с монетой. После того, как вы бросили монету и посмотрели на нее, вы получили зрительное сообщение, что выпал, например, орел. Произошло одно из двух возможных событий. Неопределенность знаний уменьшилась в 2 раза: было 2 варианта, остался один. Значит, узнав результат бросания монеты, вы получили 1 бит информации.
А сейчас попробуем получить формулу, по которой вычимсляется количество информации, содердащейся в сообщении о том, что произошло одно из множества равновероятных событий.
Обозначим буквой N количество возможных событий, или, как мы это еще называли, — неопределенность знаний. Буквой i будем обозначать количество информации в сообщении о том, что произошло одно из N событий.
2i=N
В примере с монетой N=2, i=1.
А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и он называется алфавитным подходом.
Проще всего разобраться на примере текста, написанного на русском языке.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавите также следует включить и пробел.
Полное число символов алфавита принято называть мощностью алфавита. Будем обозначать буквой N. Например, мощность алфавита из русских букв и дополнительных символов равна 54.
Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита.
В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет i бит информации.
2i=N
Для N = 54, используя таблицу количества информации в сообщении об одном из N равновероятных событий получаем i=5,755бит.
Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста и от мощности алфавита.
Например. Посчитать количество информации одной странице книги, если на одной странице 50 строк по 60 символов в каждой.
50*60=3000 знаков, следовательно объем равен 5,755*3000=17265 бит.
Количество информации, содержащееся в символьном сообщении, равно K*i, где K – число символов в тексте сообщения, а I – информационный вес символа, который находится из уравнения 2i=N, где N – мощность используемого алфавита.
Для опредиления количества информации используется единица измерения – бит (от англ. Bit, образовано от сочетания binary digit —двоичная цифра). Один бит – количество информации, содержащееся в сообщении «да» или «нет» (в двоичном коде «1» и «0»).
Так как бит – это наименьшее количество информации, то для измерения больших объемов применяются более крупные единицы измерения. Отношение между единицами следующие. 1байт- 8 бит
1килобайт (Кбайт)- 2610бита==1024 байта
1мегабайт (Мбайт)- 1024 Кбайт
1гигабайт (Гбайт)- 1024 Мбайт