АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Двоичное кодирование текстовой информации

Читайте также:
  1. Автоматизированная информационная поисковая система правовой информации
  2. Автоматический поиск инструмента и его кодирование
  3. Адаптивное кодирование.
  4. Алфавитный подход к измерению информации.
  5. Алфавитный подход к измерению информации.
  6. Анализ диаграмм внешней передачи информации
  7. Аппаратные средства защиты информации
  8. Аттестация объектов информации
  9. Блок 3. Кодирование информации.
  10. Блочное двоичное кодирование
  11. В12. Поиск информации в базе данных по сформулированному условию
  12. В13. Знание о дискретной форме представления числовой, текстовой, графической и звуковой информации.

Начиная с конца 60-х годов, компьютеры все больше ста­ли использоваться для обработки текстовой информации и в настоящее время большая часть персональных компьютеров в мире (и наибольшее время) занято обработкой именно тек­стовой информации.

Традиционно для кодирования одного символа использу­ется количество информации, равное 1 байту, то есть I =1 байт = 8 битов.

Для кодирования одного символа требуется байт информации.

Если рассматривать символы как возможные события, то по формуле (2.1) можно вычислить, какое количество раз­личных символов можно закодировать:

N = 2I = 28 = 256.

Такое количество символов вполне достаточно для пред­ставления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

При вводе в компьютер текстовой информации происхо­дит ее двоичное кодирование, изображение символа преоб­разуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение.

Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).

Коды с 33 по 127 являются интернациональными и соот­ветствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, то есть в на­циональных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время сущест­вуют пять различных кодовых таблиц для русских букв (КОИ 8, СР1251, СР866, Mac, ISO — табл. 2.3), поэтому тексты, созданные в одной кодировке, не будут правильно отображать­ся в другой.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помо­щью можно закодировать не 256 символов, а N = 216 = = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows&Office (на­чиная с 1997 года).

Таблица 2.3. Кодировки символов

Двоичный код Десятичный код КОИ8 СР1251 СР866 Мае ISO
     
     
    Удаление последнего символа (клавиша Backspace)
     
    Перевод строки (клавиша Enter)
     
    Пробел
    !
     
    Z
     
    
    - Ъ А А к
             
    б В - - Т
             
    л м | | ь
             
    Щ э _ Е н
             
    ь я Нераздел. пробел Нераздел. пробел п

Каждая кодировка задается своей собственной кодовой таблицей. Как видно из табл. 2.3, одному и тому же двоич­ному коду в различных кодировках поставлены в соответ­ствие различные символы.

Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)