|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Методики работы с архивами электронных документов:• Ретроконверсия (поточная, ручная) • Распознавание (сквозное, ручное) • Разметка (мета-данных, xml-образная) Одним из важнейших задач внедрения систем электронного документооборота считается перевод бумажных документов в электронный вид. Кроме того для решения задач атрибутивного и контекстного поиска возникает необходимость частичного или полного перевода документа в машиночитаемый вид, например при организации электронных картотек и каталогов. А) Ретроконверсия или ретроспективная конверсия подразумевает промышленный (т.е. в больших объемах) перевод текстовых данных из графического вида в цифровой машиночитаемый вид путем сканирования и автоматического распознавания, либо вручную. · Ручной ввод с клавиатуры текстовой информации и создание структуры электронных записей (с оригиналов карточек, с отсканированных образов карточек); · В случае обработки отсканированного текста хорошего качества (не менее 300 dpi, высокий контраст, минимум графических шумов и артефактов) – оптическое распознавание символов (OCR) и приведение записей к стандартному виду вручную или автоматически; · Заимствование данных из других источников. Использование уже готовых записей из других электронных каталогов, приобретаемых на оптических дисках или получаемых по сетям) и доввод собственных данных библиотеки (индексов классификации, предметных рубрик, шифров хранения и т.д.); Б) Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. В) Текст в привычном для человека понимании мало пригоден для автоматизированной обработки компьютерными программами. Для того чтобы компьютерная программа могла интерпретировать и соответствующим образом обрабатывать текст, он должен содержать специальные, невидимые человеку при «обычном» воспроизведении, знаки, которые называются разметкой. Разметка - текст, который добавляется к данным реализации ЭлД уровня представления для выражения информации о документе. Обычно выделяют четыре вида разметки: описательная разметка (теги), указания (ссылки), декларации разметки и инструкции обработки. Разметка документа (операция) - добавление к тексту документа текста разметки на специальном языке
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.002 сек.) |