АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Кодирование текстовой информации. Основная операция, производимая над отдельными символами текста - сравнение символов

Читайте также:
  1. Автоматический поиск инструмента и его кодирование
  2. Адаптивное кодирование.
  3. Алфавитный подход к измерению информации.
  4. Алфавитный подход к измерению информации.
  5. Блок 3. Кодирование информации.
  6. Блочное двоичное кодирование
  7. В13. Знание о дискретной форме представления числовой, текстовой, графической и звуковой информации.
  8. Ввод и редактирование информации. Exсel.
  9. Вихретоковые ИП. Фазовый метод выделения измерительной информации.
  10. Вы неоднократно говорили, что в России нет целенаправленной политики в области средств массовой информации.
  11. Глава 6. Кодирование
  12. Графические модели и декодирование методом передачи сообщений

Основная операция, производимая над отдельными символами текста - сравнение символов.

При сравнении символов наиболее важными аспектами являются уникальность кода для каждого символа и длина этого кода, а сам выбор принципа кодирования практически не имеет значения.

Для кодирования текстов используются различные таблицы перекодировки. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.

Таблица перекодировки - таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.

Наиболее популярные таблицы перекодировки: ДКОИ-8, ASCII, Unicode.

В настоящее время, большая часть пользователей, при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др. Подсчитаем, сколько всего символов и какое количество бит нам нужно.10 цифр, 12 знаков препинания, 15 знаков арифметических действий, буквы русского и латинского алфавита, ВСЕГО: 155 символов, что может быть закадированно 8 битами информации.

Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ – 8 (код обмена информацией, 8 битов), KOI8 — восьмибитовая ASCII-совместимая кодовая страница, разработанная для кодирования букв кириллических алфавитов;Существует также семибитовая версия кодировки для русского языка и обмена информацией— КОИ-7.Включает в себя 3 «набора» — Н0, Н1, Н2. Н0 — это просто US-ASCII; в Н1 все латинские буквы заменены на русские; в Н2 заглавные латинские буквы оставлены, а строчные заменены на заглавные русские. Но она не полностью была совместимая с ASCII поэтому она не прижилась), ASCII (СР1251, СР866), Мас, Unicode (стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем.Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F), ISO (Кодировка ISO-8859-5 получила свое название по одноименному стандарту. Ныне широко применяется в операционных средах SunOS/Solaris и SCO UNIX. В этой кодировке такая же раскладка русских букв (за исключением букв 'Ё' и 'ё'), и присутствуют символы псевдографики. Этот вариант можно определить как "текстовая" ISO-8859-5. Официальный стандарт на эту кодировку отсутствует. Возможно некоторое несоответствие таблицы символов этой кодировки, принятой в FLUIdS, действительной ее реализации в SCO UNIX. Это относится прежде всего к символам затемнения, а также к нижней строке таблицы, целиком совпадающей с соответствующей строкой таблицы символов альтернативной кодировки.), причем тексты, закодированные при помощи одной таблицы не будут правильно отображаться в другой

Основным отображением кодирования символов является код ASCII - American Standard Code for Information Interchange- американский стандартный код обмена информацией, которая представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов.


1 | 2 | 3 | 4 | 5 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.002 сек.)