АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Представление символьных данных

Читайте также:
  1. Абстрактные структуры данных
  2. Автоматизированная система обработки данных правовой статистики
  3. Авторское право - правовое положение авторов и созданных их творческим трудом произведений литературы, науки и искусства.
  4. АКТУАЛЬНЫЕ АСПЕКТЫ ПАТОГЕНЕЗА ВОСПАЛЕНИЯ. СОВРЕМЕННОЕ ПРЕДСТАВЛЕНИЕ О ПАТОГЕНЕЗЕ СЕПСИСА И СИНДРОМА СИСТЕМНОГО ВОСПАЛИТЕЛЬНОГО ОТВЕТА
  5. Алгоритм шифрования данных IDEA
  6. Американский стандарт шифрования данных DES
  7. Анализ данных при исследовании систем управления
  8. Анализ матричных данных (матрица приоритетов)
  9. Аппаратура линии связи: аппаратура передачи данных, оконечное оборудование, промежуточная аппаратура.
  10. Арифметическое представление пространства и времени
  11. Архитектура, управляемая событиями. Типы данных Win32. Оконная процедура (функция). Оконный класс.
  12. Атрибуты (элементы данных).

Все множество символьных данных можно разделить на символы, символьные строки и текстовые документы. Двоичное кодирование символьных данныхосуществляется с помощью кодовых таблиц,ста­вящих в соответствие каждому символу одно- или двухбайтовый код. Задача интер­претации кодов затруднена тем, что для каждого языка, как правило, су­ществуют несколько кодовых таблиц. Обусловлено это тем, что кодировки разрабатывались в разные времена в разных странах. Рассмотрим наиболее распространенные кодовые таблицы.

Кодовая таблица АSСП (American Standart Code for Information Interchange) разработана институтом стандартизации США в 1981 г. Для хранения каждого символа в ASCII используется восемь бит или один байт, что позволяет закодировать 28 = 256 различ­ных символов. Первоначально таблица состояла из 128 элементов, отображающих специальные управляющие знаки, такие как перевод строки, про­бел, табуляция и т. д., спецсимволы, знаки арифметических действий, знаки препинания, цифры и буквы латинского алфавита. Эта часть таблицы (с 0 по 127 элемент) получила название основной, или базовой. Старший разряд каждой восьмибитовой последовательности не использовался и был равен нулю. Использование старшего бита позволило кодировать при помощи АSСП символы национальных языков и среди них — кириллицы. Эта часть таблицы (с 128 по 255 элемент) называется расширенной, или дополнительной. АSСП является родоначальником класса так называемых «однобайтовых» кодировок - первые 128 элементов всех современных однобайтовых кодировок полностью совпа­дают с последовательностью элементов АSСП.

Кодировка КОI8 (код обмена информации восьмибитовый) была разработана в середине семидесятых годов специалистами одного из советских НИИ. Кодировка КОI8 была принята Госстандартом СССР в качестве базовой спецификации для обмена электронными документами на русском языке и ей было присвоено соответствие стандарту ГОСТ 19768-74. На сегодняшний день КОI является одной из основных кодировок для серверов, работающих на базе платформы UNIX (например, для http-сервера Арасhе), и широко используется в качестве принятого в российском Интернете формата для сообщений электронной почты. После развала Советского Союза КОI8 преобразовалась в две отдельные кодовые таблицы КОI8-R и КОI8-U, использующиеся для представления символов русского и украинского языков.

Кодировка Windows-1251 была разработана компанией Microsoft. Она получила широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера IIS(Internet Information Server).

Кодовые таблицы серии ISO-8859 были разработаны Международной организацией по стандарти­зации (International Standards Organization) с целью унификации представления символов национальных языков в электронной форме. ISO была создана система кодировок серии 8859, каждая из которых предназначена для отображения символов того или иного национального алфавита: для русского ISO-8859-5, для латинского алфавита ISO-8859-1, для арабского ISO-8859-6 и т.д.

Кодировка Macintosh CP (MAC) создавалась в расчете на персональные компьютеры Арр1е Macintosh, работающие под управлением операционной системой МасОS.

Кодировка Unicode и ее разновидность UTF-8 были разработаны с целью объединения всех существу­ющих национальных кодировок в одну. В этих кодовых таблицах для ото­бражения каждого символа используется два байта, что позволяет описать 65 536 символов, а не 256, как ранее. В их число входят цифры, буквы латинского и многих национальных алфа­витов, спецсимволы, знаки арифметических операций и т.д. Кодировка Unicode используется в качестве основной кодировки в операционной системе Microsoft Windows ХР. Все документы в кодировке Unicode вдвое длиннее, что сначала затрудняло ее внедрение.

Символьные строки, по-другому называемые текстовыми, представляют собой последовательность символов.По характеру своего содержания они могут быть как произвольными наборами символов, используемыми, например, в качестве паролей или названий переменных в программировании, так и осмысленными словами и даже целыми текстами. Символьная строка характеризуется длиной - количеством содержащихся в ней символов. Представление символьной строки для компьютерной обработки может быть реализовано в виде набора данных, в начале которого записана длина строки, а затем – само содержание строки.

Текстовые документыявляются одним из главных источников информации. Простейшим способом представления текстового документа является символьная строка. Однако не структурированный на логические фрагменты документ, представленный в виде сплошного текста, труден для восприятия. Для облегчения восприятия документа при его отображении используются шрифты различных типов и цветов, текст докумен­та разбивается на абзацы, параграфы, главы. Структурирование текста - взаимное расположение его частей при отображении на экране монитора или печати в специальном виде, удобном для пользователя, называется форматированием. Форматирование текста осуществляется с помощью управляющих символов - тегов, по-другому называемых маркерами, которые хранятся в наборе данных вместе с основным текстом. Обрабатывающие текстовые документы программы форматируют тексты, считывая и обрабатывая теги разметки.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)