|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Представление символьных данныхВсе множество символьных данных можно разделить на символы, символьные строки и текстовые документы. Двоичное кодирование символьных данныхосуществляется с помощью кодовых таблиц,ставящих в соответствие каждому символу одно- или двухбайтовый код. Задача интерпретации кодов затруднена тем, что для каждого языка, как правило, существуют несколько кодовых таблиц. Обусловлено это тем, что кодировки разрабатывались в разные времена в разных странах. Рассмотрим наиболее распространенные кодовые таблицы. Кодовая таблица АSСП (American Standart Code for Information Interchange) разработана институтом стандартизации США в 1981 г. Для хранения каждого символа в ASCII используется восемь бит или один байт, что позволяет закодировать 28 = 256 различных символов. Первоначально таблица состояла из 128 элементов, отображающих специальные управляющие знаки, такие как перевод строки, пробел, табуляция и т. д., спецсимволы, знаки арифметических действий, знаки препинания, цифры и буквы латинского алфавита. Эта часть таблицы (с 0 по 127 элемент) получила название основной, или базовой. Старший разряд каждой восьмибитовой последовательности не использовался и был равен нулю. Использование старшего бита позволило кодировать при помощи АSСП символы национальных языков и среди них — кириллицы. Эта часть таблицы (с 128 по 255 элемент) называется расширенной, или дополнительной. АSСП является родоначальником класса так называемых «однобайтовых» кодировок - первые 128 элементов всех современных однобайтовых кодировок полностью совпадают с последовательностью элементов АSСП. Кодировка КОI8 (код обмена информации восьмибитовый) была разработана в середине семидесятых годов специалистами одного из советских НИИ. Кодировка КОI8 была принята Госстандартом СССР в качестве базовой спецификации для обмена электронными документами на русском языке и ей было присвоено соответствие стандарту ГОСТ 19768-74. На сегодняшний день КОI является одной из основных кодировок для серверов, работающих на базе платформы UNIX (например, для http-сервера Арасhе), и широко используется в качестве принятого в российском Интернете формата для сообщений электронной почты. После развала Советского Союза КОI8 преобразовалась в две отдельные кодовые таблицы КОI8-R и КОI8-U, использующиеся для представления символов русского и украинского языков. Кодировка Windows-1251 была разработана компанией Microsoft. Она получила широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера IIS(Internet Information Server). Кодовые таблицы серии ISO-8859 были разработаны Международной организацией по стандартизации (International Standards Organization) с целью унификации представления символов национальных языков в электронной форме. ISO была создана система кодировок серии 8859, каждая из которых предназначена для отображения символов того или иного национального алфавита: для русского ISO-8859-5, для латинского алфавита ISO-8859-1, для арабского ISO-8859-6 и т.д. Кодировка Macintosh CP (MAC) создавалась в расчете на персональные компьютеры Арр1е Macintosh, работающие под управлением операционной системой МасОS. Кодировка Unicode и ее разновидность UTF-8 были разработаны с целью объединения всех существующих национальных кодировок в одну. В этих кодовых таблицах для отображения каждого символа используется два байта, что позволяет описать 65 536 символов, а не 256, как ранее. В их число входят цифры, буквы латинского и многих национальных алфавитов, спецсимволы, знаки арифметических операций и т.д. Кодировка Unicode используется в качестве основной кодировки в операционной системе Microsoft Windows ХР. Все документы в кодировке Unicode вдвое длиннее, что сначала затрудняло ее внедрение. Символьные строки, по-другому называемые текстовыми, представляют собой последовательность символов.По характеру своего содержания они могут быть как произвольными наборами символов, используемыми, например, в качестве паролей или названий переменных в программировании, так и осмысленными словами и даже целыми текстами. Символьная строка характеризуется длиной - количеством содержащихся в ней символов. Представление символьной строки для компьютерной обработки может быть реализовано в виде набора данных, в начале которого записана длина строки, а затем – само содержание строки. Текстовые документыявляются одним из главных источников информации. Простейшим способом представления текстового документа является символьная строка. Однако не структурированный на логические фрагменты документ, представленный в виде сплошного текста, труден для восприятия. Для облегчения восприятия документа при его отображении используются шрифты различных типов и цветов, текст документа разбивается на абзацы, параграфы, главы. Структурирование текста - взаимное расположение его частей при отображении на экране монитора или печати в специальном виде, удобном для пользователя, называется форматированием. Форматирование текста осуществляется с помощью управляющих символов - тегов, по-другому называемых маркерами, которые хранятся в наборе данных вместе с основным текстом. Обрабатывающие текстовые документы программы форматируют тексты, считывая и обрабатывая теги разметки. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |