Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Международный стандарт Unicode

Читайте также:

В 90-х гг. появился международный стандарт Unicode, который использует для кодирования кода символа два байта, и поэтому с его помощью можно закодировать 65 536 различных символов (2¹⁶), т. е. представить знаки практически всех языков, имеющих письменность. В документах Unicode можно встретить одновременно китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы. Стандарт был разработан некоммерческой организацией «Консорциум Юникода» (англ. Unicode® Consortium, Unicode Inc., созданная в 1991 году), которая занимается его развитием.

Данный стандарт поддерживается практически всеми операционными системами, а также всеми современными браузерами. Он включает символы всех европейских языков, большинства азиатских языков и языков Ближнего Востока (с написанием слов справа налево). Кроме того, в стандарт входят знаки пунктуации, диакритические знаки (например, тильда ~ для выделения акцентированных букв, как ñ), математические знаки, специальные символы, стрелки, полиграфические символы и т. д. В Unicode также имеется набор свободных кодов, которые могут быть использованы компаниями или пользователями для представления своих собственных символов.

Для стандарта Unicode имеется три формы представления (Unicode transformation format, UTF), которые позволяют одни и те же данные закодировать одним байтом, двумя байтами или удвоенным машинным словом (4 байта). Это соответственно 8, 16 или 32 бита на один символ. Преобразование из одной формы представления в другую возможно без потерь данных.

Преимуществом UTF-8 является то, что эта форма совместима с системами, использующими 8-битные символы, например ASCII. В тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом.

Коды в стандарте Unicode разделены на несколько областей (коды записываются в шестнадцатиричной системе счисления). Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами (рис. 1). Далее расположены области знаков различных письменностей, знаки пунктуации и специальные символы. Под символы кириллицы выделены коды от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F.

В Unicode символы, имеющие дополнительные над- или подстрочные элементы (диакритические знаки), могут быть представлены в виде последовательности кодов (составной вариант, composite character) или в виде единого символа (precomposed character). Например, буква немецкого алфавита "ü" может быть представлена единым кодом U+00FC "ü" или в виде сочетания базового символа U+0075 "u" и диакритического знака U+0308 "¨".

1 | 2 | 3 | 4 | 5 | 6 | 7 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (1.553 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница