Лекция: Дискретное представление информации: двоичные числа, двоичное кодирование текста в памяти компьютера. Информационный объем текста.
С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса:
Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код. Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.
С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента: 0 – отсутствие электрического сигнала;
1 – наличие электрического сигнала.
Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Вам приходится постоянно сталкиваться с устройством, которое моет находится только в двух устойчивых состояниях: включено/выключено. Конечно же, это хорошо знакомый всем выключатель. А вот придумать выключатель, который мог бы устойчиво и быстро переключаться в любое из 10 состояний, оказалось невозможным. В результате после ряда неудачных попыток разработчики пришли к выводу о невозможности построения компьютера на основе десятичной системы счисления. И в основу представления чисел в компьютере была положена именно двоичная система счисления.
Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.
Рассмотрим основные способы двоичного кодирования информации в компьютере.
Представление чисел
Для записи информации о количестве объектов используются числа. Числа записываются с использование особых знаковых систем, которые называют системами счисления.
Система счисления – совокупность приемов и правил записи чисел с помощью определенного набора символов. Все системы счисления делятся на две большие группы: ПОЗИЦИОННЫЕ и НЕПОЗИЦИОННЫЕ. Позиционные — количественное значение каждой цифры числа зависит от того, в каком месте (позиции или разряде) записана та или иная цифра. Непозиционные — количественное значение цифры числа не зависит от того, в каком месте (позиции или разряде) записана та или иная цифра.
Самой распространенной из непозиционных систем счисления является римская. В качестве цифр используются: I(1), V(5), X(10), L(50), C(100), D(500), M(1000).
Величина числа определяется как сумма или разность цифр в числе.
MCMXCVIII = 1000+(1000-100)+(100-10)+5+1+1+1 = 1998 Первая позиционная система счисления была придумана еще в Древнем Вавилоне, причем вавилонская нумерация была шестидесятеричная, т.е. в ней использовалось шестьдесят цифр!
В XIX веке довольно широкое распространение получила двенадцатеричная система счисления. В настоящее время наиболее распространены десятичная, двоичная, восьмеричная и шестнадцатеричная системы счисления. Количество различных символов, используемых для изображения числа в позиционных системах счисления, называется основанием системы счисления.
Система счисления | Основание | Алфавит цифр |
Десятичная | 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 | |
Двоичная | 0, 1 | |
Восьмеричная | 0, 1, 2, 3, 4, 5, 6, 7 | |
Шестнадцатеричная | 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F |
Соответствие систем счисления:
Десятичная |
Двоичная |
Восьмеричная |
Шестнадцатеричная |
Десятичная | ||||||
Двоичная | ||||||
Восьмеричная | ||||||
Шестнадцатеричная | A | B | C | D | E | F |
Двоичное кодирование текстовой информации
Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов). Для кодирования одного символа требуется один байт информации.
Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. (28=256)
Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).
Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки.
Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standard Code for Information Interchange) – Американский стандартный код для информационного обмена. Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.
Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита. В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO).
В настоящее время получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536 ) различных символов.