|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Основы машинного переводаЛекция 13. Машинный перевод текста. Компьютерные языковые словари Основы машинного перевода Перевод - это вид языкового посредничества, который ориентирован на иноязычный оригинал. Перевод рассматривается как иноязычная форма существования сообщения, содержащегося в оригинале. Межъязыковая коммуникация, осуществляемая через посредство перевода, в наибольшей степени воспроизводит процесс непосредственного речевого общения, при котором коммуниканты пользуются одним и тем же языком. Машинный перевод – это автоматическое извлечение знаний и текстов, написанных на естественном языке с помощью компьютерных программ с опорой на лингвистическое обеспечение. Процесс машинного перевода – это действия компьютера по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Система автоматического понимания текста, исходит из того, что текст на естественном языке, построенный в соответствии со словарями, грамматикой и алгоритмами естественного языка, опирающийся на семантическую сеть, фреймы и тезаурусы, понимается пользователем благодаря тому, что у него существуют лингвистические знания - синтактико-семантические структуры, а также специальные знания. Большинство систем автоматической обработки языка ставят своей задачей анализ текстов, заранее разбитых на предложения. Однако языковые данные доступны нам чаще всего в виде текстов, размеченных на абзацы, главы и другие более крупные единицы. Поэтому для их эффективного автоматического анализа необходимы соответствующие алгоритмы сегментации. Задачи при создании системы автоматического понимания текста: · анализ исходного естественного текста, который обеспечивает построение лингвистических структур, в том числе разных семантических структур, полных, частичных, сжатых, стремящихся представить содержание текста в форме баз данных, · сравнение лингвистических структур текста со специальными или индивидуальными знаниями, также представленными в форме базы данных · генерализация текстов на основе информации, заключенной в традиционных реляционных базах данных, а также в концептуальных текстовых структурах или в индивидуальных базах данных. Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в заданной паре языков при заданном направлении перевода (с одного конкретного языка на другой). Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными. Современный машинный, или автоматический перевод осуществляется с помощью человека: пред-редактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интер-редактора, который участвует в процессе перевода, или пост-редактора, который исправляет ошибки и недочеты в переведенном машиной тексте. Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической), которые обеспечивают передачу эквивалентных, вариантных и трансформационных переводных соответствий, толковые и специальные тематические словари, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода: · ввод текста и поиск входных словоформ во входном словаре с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме. В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы. · перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области, определение основных грамматических характеристик элементов входного текста, разрешение омографии, лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных, после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения. · Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка. · Синтез выходных словоформ и предложения в целом на выходном языке. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей. Качество машинного перевода зависит от: · объема словарей, · объема информации, приписываемой лексическим единицам, · тщательности составления и проверки работы алгоритмов анализа и синтеза, · эффективности программного обеспечения. Однако ни от одной из программ пока нельзя ожидать «правильного», литературного перевода текста, состоящего из сложных фраз. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме. Совершенствование программ по машинному переводу связано с концепцией мягкого понимания текста, согласно которой разные пользователи извлекают свою информацию и свой индивидуальный смысл из одного и того же текста. Модель мягкого понимания текста состоит в способности порождать различные осмысленные интерпретации исходного объекта в зависимости от разных условий и составляющих его восприятия. Более частные "машинные средства" в помощь переводчику и редактору - это автоматические словари и терминологические базы данных, компьютерные тезаурусы, средства экранного редактирования, системы орфографической, терминологической и грамматической коррекции текстов. Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бóльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок. Компьютерный словарь в помощь человеку – это вспомогательное средство для быстрого нахождения переводных соответствий; при этом, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода. В информационной технологии различаются 2 основных подхода к машинному переводу: · поверхностное ознакомление с содержанием документа на незнакомом языке · использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, машинный перевод предоставляет возможность проверять теоретические гипотезы об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Необходимость в совершенствовании машинного перевода постоянно возрастает, так как это является важнейшим условием обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки. Проблемами машинного перевода занимается компьютерная лингвистика, которая родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. В те же времена под руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному переводу и в Москве. В начале 1956 года в Институте прикладной математики (ИПМ) им.М.В.Келдыша начала работать первая отечественная система машинного перевода с французского на русский язык. Лидеры среди современных программ машинного перевода в России - система PROMT (разработка компании ПРОМТ, www.e-promt.ru) и система СОКРАТ (разработка компании «Арсеналъ», www.ars.ru). В последней версии PROMT появилась принципиально новая функциональность, «Ассоциированная Память». Механизм «Ассоциированной Памяти» позволяет обучать систему. С его помощью можно сохранить удовлетворяющий вас перевод текста в базе знаний и в дальнейшем использовать его фрагменты при переводе похожих текстов. СОКРАТ пытается найти однозначное решение и не дает вариантности в терминах: слово, отсутствующее в словаре, остается в исходном написании. PROMT же обычно предлагает несколько вариантов перевода слов и словосочетаний. Машинный перевод, прошедший несколько стадий своего развития, в настоящее время сконцентрирован на идее моделирования действий человека-переводчика. Процесс перевода очень труден, а правильное использование преимуществ программного обеспечения во многом определяет качество перевода. Современные системы машинного перевода включают в себя множество дополнительных словарей. Основываясь на особенностях архитектурных решений для лингвистических алгоритмов, системы подразделяются на два типа - "Трансфер" и "Интерлингва". Программы автоматического перевода строятся в соответствии с данным разделением. Так, например программа "Сократ" переводит намного лучше, чем скажем "Мэджик Гудди" потому, что лингвистическое обеспечение первой программы намного сильнее, а словари намного больше по объему. Результаты машинного перевода всегда приходится редактировать. Так, например, в программе "Парс" предусмотрена функция дополнительного подключения словарей различной тематики. Ведь от качества обеспечения программы зависит и качество выдаваемого машиной перевода. Но даже тонкая настройка системы под лексику переводимого текста не учитывает всех его особенностей, поэтому переведенные слова, имеющие несколько синонимов, помечаются звездочкой, либо приводятся в скобках как вариант. Интернет-технологии дали новое развитие машинному переводу, помогли вывести его на новую стадию развития. Машинный перевод - это эффективное средство для просмотра и поиска информации на иностранном языке, а именно эта функция является главной при работе в Интернете. Современное состояние машинного перевода позволяет получать относительно корректный текст перевода веб-страниц с большинства языков. И хотя полностью автоматический высококачественный перевод невозможен, уже имеется программное обеспечение, которое облегчает сам процесс перевода. В результате настройки на предметную область и интеграции с другими программами обработки документов машинный перевод позволяет автоматизировать получение переводного текста. Основной проблемой всех программ машинного перевода является правильный выбор тематического словаря, а также выстраивание вспомогательных словарей. Перевод частично зависит и от уровня подготовки пользователя (знание языка, навыки работы с программами, чувство языка), а также в большей степени его умения правильно работать с текстовым редактором, вспомогательными утилитами, словарями и фразеологическими справочниками. Варианты переводов, производимых с подключением тематических словарей, дает хороший перевод, правильный выбор значения слова и употребление фраз в тексте. Это объясняется тем, что машина настраивает свой словарь на выбор тех синонимов, которые бы соответствовали в большей степени тематике входящего языка, и переводила бы в соответствии с тематикой выходного языка. 2 подхода к проблеме развития машинного перевода: · установка на использование универсального языка смысла, прямой подход к переводу, преобразование текста оригинала в текст перевода · установка на промежуточный язык, моделирование человеческого владения языком Проблема состоит в том, что смысл текста на естественном языке зависит не только от самого предложения, но также и от контекста, который связан с многозначностью слов и синтаксических конструкций, практической невозможностью глобального описания семантической структуры мира даже в ограниченной предметной области, отсутствием эффективных формальных методов описания лингвистических закономерностей. Нерешенные проблемы машинного перевода – это · решение неоднозначности формального синтаксического анализа изолированных предложений текста · преодоление структурной и смысловой неполноты участков (фрагментов) текста · организация гибкого подключения разных предметных областей · необходимость понимания текста как целого образования Программы машинного перевода лучше обрабатывают научные, технические и образовательные тексты, которым присуще строгое изложение материала. Разговорный и публицистический стиль, где много специфических оборотов, но большинство слов используется в прямом смысле, пригодны для ознакомительного перевода, однако для получения грамотного выходного текста требуется ручная правка. Получаемый перевод является неким ознакомительным текстом, где передается лишь общая тематическая направленность текста. Перевод же художественной литературы и поэзии не соответствует требованиям машины. Смысл текста, построенного на иносказательных выражениях, при машинном переводе искажается и недоступен даже для ознакомления. Машина не понимает многозначности, что в свою очередь приводит к неправильной интерпретации переводимого текста, который превращается в бессмыслицу. Постараться минимизировать такие недоразумения можно, соблюдая следующие правила: · правильно выстраивать тематические словари · проверять текст оригинала на стадии предподготовки его перевода · редактировать на конечной стадии перевода · правильно использовать программы словарей · хорошо знать грамматику и лексику, а также тематику исходного текста · правильно оперировать словарным запасом, клише и словоформами · своевременно пополнять специальные словари новыми терминами
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.007 сек.) |