Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Кодирование текстовой информации

Читайте также:

Нажатие клавиши на клавиатуре приводит к тому, что сигнал посылается в компьютер в виде двоичного числа, которое хранится в таблице кодировки.

Таблица кодировки – это таблица, в которой устанавливается соответствие между символами и их порядковыми номерами в компьютерном алфавите.

Как правило, все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код есть порядковый номер символа в двоичной системе счисления.

Для разных типов ЭВМ используются различные таблицы кодировки.

ASCII

С распространением персональных компьютеров типа IBM P C международным стандартом стала таблица кодировки под названием ASCII (American Standard Code for Information Interchange) – Американский стандартный код для информационного обмена.

· Стандартными в этой таблице являются только первые 128 символов, т.е. символы с номерами от нуля (двоичный код 00000000) до 127.(01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.

· Остальные 128 кодов, начиная со 128 (двоичный код10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Принцип последовательного кодирования алфавита: в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Данное правило соблюдается и в других таблицах кодировки. Благодаря этому и в машинном представлении для символьной информации сохраняется понятие «алфавитный порядок».

Mac

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кодировка MacCyrillic используется только на компьютерах «Макинтош».

Благодаря отсутствию псевдографики и «верхних» управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков.

Нижняя часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

***

Кроме того, что пользователь может работать на разных компьютерах, существует работа в компьютерных сетях. При этом отображение страницы интернет не всегда правильное. Часто пользователь вместо ожидаемого текста на родном языке видит «абракадабру» из символов. Данная проблема также связана с применением различных кодировок[1] для текстовой информации.

Заметим, что сегодня проходит работа по выработке единого стандарта, единой стандартной кодировки, понимаемой всеми и всегда…

§2.1. Основное понятие – «таблица кодировки»

Повторим, что:

Для записи текстовой информации в компьютерах, как правило, используется кодирование символов последовательностями из восьми бит (что соответствует, как вы помните, одному байту). Один байт – один символ. Иными словами, для записи одной буквы, цифры или заковыристого значка применяется последовательность из восьми нулей и единиц. Какой же конкретно символ соответствует той или иной последовательности? Эти данные распознаются из так называемой «таблицы символов», которая знакома каждой программе, умеющей отображать текст.

Таблица символов (еще она называется «кодовой страницей») может храниться либо в самой программе, либо в операционной системе и предоставляться при каждом запросе. Получив последовательность из восьми бит, программа «смотрит» в таблицу символов и определяет по ней, какому символу эта последовательность бит соответствует.

Нетрудно понять, что таблица символов должна быть строжайшим стандартом – ведь, если текст был написан / закодирован одной таблицей символов, а пользователь читает эту последовательность в соответствии с данными другой кодовой страницы, то прочитать такой текст сможет только человек, долгие годы прослуживший в шифровальном отделе контрразведки. Для английского алфавита (латиницы) это действительно так: во всех существующих таблицах символов, использующихся в компьютерных программах, каждая латинская буква кодируется одной и только одной, твердо и строго определенной международными стандартами последовательностью бит. Такое соответствие байт и отображаемых символов было разработано почти двадцать лет назад на основе последовательности букв в латинском алфавите.

Но с помощью восьми бит можно закодировать до 256 символов – в самом деле, каждый бит может иметь значение 0 или 1, то есть одно из двух, следовательно, всего различных восьмибитовых последовательностей может быть 2⁸=256. Английских же букв – 26, плюс еще столько же заглавных, цифры и служебные символы займут еще мест 50. Поэтому, для возможности адаптации операционных систем к другим алфавитным системам, в качестве международного стандарта было принято строгое соответствие отображаемым символам лишь первых 128 последовательностей восьми бит (от 0 по 127) – то есть первой половины кодовой страницы. А вторую половину отдали «на откуп» производителям регионального программного обеспечения и информационных ресурсов – чтобы они размещали в ней свои алфавиты.

Коды первых 128 символов кодовых страниц, которые должны быть едиными во всех таких страницах, получили название стандарта ASCII. Эти символы также могут кодироваться всего семью битами информации. Первые 32 кода (от 0 до 31) были назначены управляющим символам (например, символ с кодом 13 – это символ конца абзаца), остальные кодировали строчные и прописные латинские буквы, цифры, знаки препинания и математических операций.

Коды второй половины этой 256-символьной кодовой страницы получили название «расширенного» стандарта ASCII. Ими кодировались, как уже было сказано выше, национальные алфавиты, а также символы псевдографики, математические и некоторые другие символы. Вы можете легко отобразить на экране символ с желаемым кодом, набрав, например, в Word его код (десятичный, на цифровой клавиатуре) при удерживаемой клавише Alt.

Появились различные версии кодовых страниц, различающиеся именно своей второй половиной, которым были присвоены определенные номера для отличия их друг от друга. Чтобы пустое место в исходной английской кодовой странице не пропадало, на места, соответствующие кодам символов больше 127, были поставлены гласные буквы латиницы с надстрочными знаками, использующимися в разных европейских языках, а также символы, позволяющие в текстовом режиме создавать простейшие графические изображения – символы псевдографики. В региональных кодовых страницах на этих местах стали располагать символы отличных от английского алфавитов, таких, как русский, турецкий, вьетнамский, тайский и др.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.193 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница