Лекция: Билет 3

1. Дискретное представление информации: двоичные числа; двоичное кодирование текста в памяти компьютера. Информационный обьем текста.

 

Ответ:

 

Преобразование информации из одной формы в другую знаковую форму называют кодированием. Для кодирования используют определенную систему знаков – алфавит. Количество знаков в алфавите может быть различным. Самый короткий алфавит состоит из двух знаков. Если для кодирования информации используется только два знака — 0 и 1, то кодирование называют двоичным. Информация закодированная таким способом является дискретной (цифровой), т.е. представляется просто набором двоичных цифр. Такой способ достаточно универсален. Он может использоваться для представления всех видов знаковой информации (в том числе числовых данных, тогда речь идет о двоичных числах), а также для представления аналоговой информации (изображений, звука и т.п.). В последнем случае речь идет об аналого-цифровом преобразовании (АЦП), в процессе которого исходная аналоговая информация подвергается дискретизации — разбиению на элементы, каждый из которых описывается конечным набором двоичных знаков.

 

Для записи текстовой (знаковой) информации всегда используется какой-либо язык (естественный или формальный). Всё множество используемых в языке символов называется алфавитом. Полное число символов алфавита называют его мощностью. При записи текста в каждой очередной позиции может появиться любой из N символов алфавита, т.е. может произойти N событий. Следовательно, каждый символ алфавита содержит i бит информации, где i определяется из неравенства: 2i ≥ N.Тогда общее количество информации в тексте определяется формулой:

 

V = k * i, где V – количество информации в тексте; k – число знаков в тексте (включая знаки препинания и даже пробелы), i — количество бит, выделенных на кодирование одного знака.

 

Так как каждый бит – это 0 или 1, то любой текст может быть представлен последовательностью нулей и единиц. Именно так текстовая информация хранится в памяти компьютера. Присвоение символу алфавита конкретного двоичного кода — это вопрос соглашения, зафиксированного в кодовой таблице. В настоящее время широкое распространение получили кодовые таблицы ASCII и Unicode.

 

ASCII(American Standart Code for Informational Interchange — Американский стандартный код информационного обмена) используется достаточно давно. Для хранения кода одного символа выделено 8 бит, следовательно, кодовая таблица поддерживает до 28 = 256 символов. Первая половина таблицы (128 символов) — управляющие символы, цифры и буквы латинского алфавита. Вторая половина отводится под символы национальных алфавитов. К сожалению, в настоящее время существует целых пять вариантов кодовых таблиц для русских букв, поэтому тексты созданные в одной кодировке неверно отображаются в другой. (Наверное, Вы встречали русскоязычные сайты, тексты которых выглядят как бессмысленный набор знаков? Приходилось менять кодировку?).

 

Unicode - получил распространение в последние годы. Для хранения кода одного символа выделено 16 бит, следовательно, кодовая таблица поддерживает до 216 = 65536 символов. Такого пространства достаточно, чтобы в одном стандарте объединить все «живые» официальные (государственные) письменности. Кстати, стандарт ASCII вошел в состав Unicode.

еще рефераты
Еще работы по информатике