Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Представление символьных данных

Читайте также:

Все множество символьных данных можно разделить на символы, символьные строки и текстовые документы. Двоичное кодирование символьных данныхосуществляется с помощью кодовых таблиц,ставящих в соответствие каждому символу одно- или двухбайтовый код. Задача интерпретации кодов затруднена тем, что для каждого языка, как правило, существуют несколько кодовых таблиц. Обусловлено это тем, что кодировки разрабатывались в разные времена в разных странах. Рассмотрим наиболее распространенные кодовые таблицы.

Кодовая таблица АSСП (American Standart Code for Information Interchange) разработана институтом стандартизации США в 1981 г. Для хранения каждого символа в ASCII используется восемь бит или один байт, что позволяет закодировать 2⁸ = 256 различных символов. Первоначально таблица состояла из 128 элементов, отображающих специальные управляющие знаки, такие как перевод строки, пробел, табуляция и т. д., спецсимволы, знаки арифметических действий, знаки препинания, цифры и буквы латинского алфавита. Эта часть таблицы (с 0 по 127 элемент) получила название основной, или базовой. Старший разряд каждой восьмибитовой последовательности не использовался и был равен нулю. Использование старшего бита позволило кодировать при помощи АSСП символы национальных языков и среди них — кириллицы. Эта часть таблицы (с 128 по 255 элемент) называется расширенной, или дополнительной. АSСП является родоначальником класса так называемых «однобайтовых» кодировок - первые 128 элементов всех современных однобайтовых кодировок полностью совпадают с последовательностью элементов АSСП.

Кодировка КОI8 (код обмена информации восьмибитовый) была разработана в середине семидесятых годов специалистами одного из советских НИИ. Кодировка КОI8 была принята Госстандартом СССР в качестве базовой спецификации для обмена электронными документами на русском языке и ей было присвоено соответствие стандарту ГОСТ 19768-74. На сегодняшний день КОI является одной из основных кодировок для серверов, работающих на базе платформы UNIX (например, для http-сервера Арасhе), и широко используется в качестве принятого в российском Интернете формата для сообщений электронной почты. После развала Советского Союза КОI8 преобразовалась в две отдельные кодовые таблицы КОI8-R и КОI8-U, использующиеся для представления символов русского и украинского языков.

Кодировка Windows-1251 была разработана компанией Microsoft. Она получила широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера IIS(Internet Information Server).

Кодовые таблицы серии ISO-8859 были разработаны Международной организацией по стандартизации (International Standards Organization) с целью унификации представления символов национальных языков в электронной форме. ISO была создана система кодировок серии 8859, каждая из которых предназначена для отображения символов того или иного национального алфавита: для русского ISO-8859-5, для латинского алфавита ISO-8859-1, для арабского ISO-8859-6 и т.д.

Кодировка Macintosh CP (MAC) создавалась в расчете на персональные компьютеры Арр1е Macintosh, работающие под управлением операционной системой МасОS.

Кодировка Unicode и ее разновидность UTF-8 были разработаны с целью объединения всех существующих национальных кодировок в одну. В этих кодовых таблицах для отображения каждого символа используется два байта, что позволяет описать 65 536 символов, а не 256, как ранее. В их число входят цифры, буквы латинского и многих национальных алфавитов, спецсимволы, знаки арифметических операций и т.д. Кодировка Unicode используется в качестве основной кодировки в операционной системе Microsoft Windows ХР. Все документы в кодировке Unicode вдвое длиннее, что сначала затрудняло ее внедрение.

Символьные строки, по-другому называемые текстовыми, представляют собой последовательность символов.По характеру своего содержания они могут быть как произвольными наборами символов, используемыми, например, в качестве паролей или названий переменных в программировании, так и осмысленными словами и даже целыми текстами. Символьная строка характеризуется длиной - количеством содержащихся в ней символов. Представление символьной строки для компьютерной обработки может быть реализовано в виде набора данных, в начале которого записана длина строки, а затем – само содержание строки.

Текстовые документыявляются одним из главных источников информации. Простейшим способом представления текстового документа является символьная строка. Однако не структурированный на логические фрагменты документ, представленный в виде сплошного текста, труден для восприятия. Для облегчения восприятия документа при его отображении используются шрифты различных типов и цветов, текст документа разбивается на абзацы, параграфы, главы. Структурирование текста - взаимное расположение его частей при отображении на экране монитора или печати в специальном виде, удобном для пользователя, называется форматированием. Форматирование текста осуществляется с помощью управляющих символов - тегов, по-другому называемых маркерами, которые хранятся в наборе данных вместе с основным текстом. Обрабатывающие текстовые документы программы форматируют тексты, считывая и обрабатывая теги разметки.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.633 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница