|
|||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Сравнение статистических и трансфертных СМП
Google и PROMPT На данный момент трансфертный и статистический машинный перевод являются лидерами среди методов машинного перевода. Следуя за сотрудниками журнала Компьютер Пресс, Николем Прохоровым, Давидом Харатишвили, сравнивать оба метода на примере известных СМП. Данные за 2007 год взяты из их исследований. Для эксперимента использовали два английских текста: · первый — фрагмент из новости, посвященной судебному процессу; Attorney’s Fees A clause for attorney’s fees is normally included in the note in the event the borrower defaults in repayment of the loan. This means that if the lender has to sue to collect on the note, the court will give the party which wins the lawsuit reasonable attorney’s fees. · второй — отрывок из официального разъяснения о правилах получения кредита. If you are requesting a credit report because you have been denied services or credit within the last thirty days due to an unfavorable credit report, you are entitled to receive a copy of the report at no charge.
Результат PROMT 8.0 можно оценить как весьма добротный машинный перевод: точно передан смысл исходного текста, все предложения имеют целостную структуру и легко читаются. Однако, было замечено несколько неудачных формулировок: · «за судебные издержки»; · «чтобы собраться на примечании». Современная веб-версия PROMT, тоже неплохо справилась с задачей, если не считать странную фразу «адвокатские гонорары». Перевод Google (2007.12) содержит довольно много языковых конструкций, смысл которых совершенно непонятен: · «положение на адвоката гонорар»; · «суд даст стороной». Таким образом, в некоторых предложениях смысл исходного текста можно лишь угадать, но и для этого потребуется несколько раз перечитать полученный перевод. При переводе второго англоязычного текста (заявление на получение кредита) PROMT и Google достойно справились со своей задачей. Google даже отличился и перевел выражение «at no charge» стилистически более точно: «на безвозмездной основе». На примере проведенного эксперимента, интересно пронаблюдать развитие обеих СМП. Как ни странно, за 3 года PROMPTпрактически не изменился. Google значительно изменился в лучшую сторону. Последнее наводит на мысль, что потенциал трансфертных систем перевода рано или поздно будет исчерпан, в то время как качество перевода статистических систем перевода будет улучшаться со временем. Нельзя сказать, что это абсолютно верное заключение. Для строгих прогнозов нужно проводить ряд экспериментов, причем в течение длительного периода. По заявлениям представителей компании Google, для русского перевода СМП требует еще доводки. Кроме того, компания не делала больших ставок на русский язык. Исследование переводчика Googleна других языках выходит за рамки этой работы. Для компании PROMPT(которая является отечественным производителем) переводы с русского и на русский язык были первоочередной задачей. Ниже показано, как выглядели соответствующие СМП в 2008 и в 2012 годах. Стоит отметить, что внешний вид переводчика Google за это время нисколько не изменился, только увеличилось количество поддерживаемых языков. Googleна 2007 год:
Google на 2012год: PROMPT 8.0
PROMT (translate.ru) на 2012год Насколько изменился внешний вид настольного переводчика PROMPT, судить сложно. В данный момент с сайта можно скачать PROMPT 9.0. Версия является платной и в рамках этого исследования я не стал ее рассматривать. Даже без учета платности продукта, на мой взгляд, ясно, что перевод в веб-формате является более удобным. Расстраивает только ограничение на размер исходного текста ‑ 300 символов – но для большинства задач этого хватает. Современные версии обеих СМП обладают обратной связью, таким образом, любой желающий может предложить свой вариант перевода.
Обратный перевод
Проведем эксперимент с теми же самыми СМП, что и ранее. Будем проводить тестирование на тексте технической тематики: Перевод, сделанный PROMT, выглядит более понятным. Смысл во всех текстах передан правильно, предложения выходного текста имеют правильную структуру. В качестве недостатка можно отметить, что в некоторых случаях PROMT выбрал не совсем корректный перевод терминов (например, «the rate» переводится во втором отрывке именно как «курс», а «enclosure» правильнее переводить как «приложение»). В данном случае, было бы интересно выполнить обратный перевод текстов. Каждой СМП дать перевести результат ее собственного перевода. В идеале мы должны получить исходный текст. В реальности, это совсем не так. Так как при переводе на русский язык были потери, то при таком двойном переводе потери будут более значительными. Важно отметить, что ситуация аналогично, если текст переводит человек а не машина.
Даже беглый просмотр результатов второй таблицы позволяет сказать, что Google лучше справился с этой задачей. Это во многом объясняется принципами его работы. Используемые английские фразы оказались просто наиболее вероятным переводом русского текста. Текст созданный PROMPTдостаточно далек от оригинала, и не вполне верен с точки зрения грамматики, но основной смысл отрывков был передан верно. Если вернуться к рассмотренный выше модели шеннона, то шум создаваемый трансфертными СМП, скорее всего является постоянным. Простыми словами, если много раз применять обратный перевод к одному и тому же отрывку, то качество отрывка каждый раз будет ухудшаться плавно. При этом так же плавно будет искажаться смысл текста.
Для статистических СМП искажения текста будут меньшими и с каждым обратным переводом они будут уменьшаться пока на фразы на русском и на английском не станут более вероятными с точки зрения системы, при этом смысл может значительно исказиться. Последнее наводит на мысль, что если статистическая система перевода будет обучена на очень большом количестве текстов, и будет выдавать перевод максимально близкий к переводу человека, то с помощью нее можно будет исправлять стилистические ошибки автора текста. Но до это пока очень далеко. После сравнения двух совсем разных типов СМП можно придти к следующим выводам. 1. Для практических задач удобнее использовать трансфертные системы. Они наиболее проработаны и переводы, созданные ими, потребуют меньшей правки. 2. Потенциал статистических систем значительно больше, и со временем они будут улучшаться, качество перевода зависит от времени обучения и размера базы.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.) |