АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Сравнение статистических и трансфертных СМП

Читайте также:
  1. THE GERUND AND THE PARTICIPLE. СРАВНЕНИЕ ГЕРУНДИЯ И ПРИЧАСТИЯ
  2. Вопрос № 21 Специфика статистических материалов как исторического источника. Материалы ревизий как исторический источник.
  3. ВЫЧИСЛЕНИЕ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ СТАТИСТИЧЕСКИХ ПАРАМЕТРОВ
  4. Вычисление статистических параметров выборки
  5. Глава 1. Графическое представление данных. Определение основных статистических характеристик исходных данных
  6. Группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами.
  7. Дискреционная фискальная политика – сознательное манипулирование правительственными закупками, ставками налогов и размерами трансфертных платежей.
  8. Источник: собственная разработка на основе статистических данных организации
  9. Обработка сигналов измерительной информации. Вычисление статистических характеристик случайных процессов.
  10. Оценка достоверности статистических параметров и проверка статистических гипотез
  11. Ошибка статистических величин
  12. Ошибки первого и второго рода. Понятие о статистических критериях. Критическая область, критические точки

 

Google и PROMPT

На данный момент трансфертный и статистический машинный перевод являются лидерами среди методов машинного перевода. Следуя за сотрудниками журнала Компьютер Пресс, Николем Прохоровым, Давидом Харатишвили, сравнивать оба метода на примере известных СМП.

Данные за 2007 год взяты из их исследований.

Для эксперимента использовали два английских текста:

· первый — фрагмент из новости, посвященной судебному процессу;

Attorney’s Fees A clause for attorney’s fees is normally included in the note in the event the borrower defaults in repayment of the loan. This means that if the lender has to sue to collect on the note, the court will give the party which wins the lawsuit reasonable attorney’s fees.

· второй — отрывок из официального разъяснения о правилах получения кредита.

If you are requesting a credit report because you have been denied services or credit within the last thirty days due to an unfavorable credit report, you are entitled to receive a copy of the report at no charge.

PROMT 8.0 (2008) PROMT (translate.ru, 2011) Google (2007) Google (2011)
Судебные издержки Пункт за судебные издержки обычно включается в примечание в случае неплатежи заемщика в выплате ссуды. Это означает, что, если кредитор должен предъявить иск, чтобы собраться на примечании, суд даст сторону, которая выигрывает судебный процесс разумные судебные издержки. Адвокатские гонорары пункт за адвокатские гонорары обычно включаются в примечание в конечном счете неплатежи заемщика в выплате ссуды. Это означает, что, если кредитор должен предъявить иск, чтобы собраться на ноте, суд даст сторону, которая выигрывает судебный процесс разумные адвокатские гонорары. Прокурора Тарифы Положение на адвоката гонора р, как правило, включены в записку в случае невыполнения заемщиком в погашение кредита. Это означает, что если кредитор имеет на иск собирать по записке, суд даст стороной, которая выиграет иск разумный гонорар адвоката. Судебные издержки предложение для оплаты адвоката, как правило, включены в записку в случае дефолта заемщика в счет погашения кредита. Это означает, что если кредитор подать в суд, чтобы собирать на сведению, суд даст партия, которая победит сборов иск разумные адвоката.
Если Вы просите отчет о кредитных операциях, потому что Вам отказали в услугах или кредите в течение прошлых тридцати дней вследствие неблагоприятного отчета о кредитных операциях, Вы наделены правом получить копию отчета бесплатно. Если Вы просите отчет о кредитных операциях, потому что Вам отказали в услугах или кредите в течение прошлых тридцати дней из-за неблагоприятного отчета о кредитных операциях, Вы наделены правом получить копию отчета бесплатно. Если Вы просите кредит доклад потому, что Вы были лишены услуг или кредитов в течение последних тридцати дней, в связи с неблагоприятн ыми кредитн ого отчет а, Вы имеете право получить копию доклада бесплатно. Если вы запрашиваете отчет о кредитных операциях, потому что вы были лишены услуг или кредит в течение последних тридцати дней из-за неблагоприятных кредитный отчет, вы имеете право получить копию доклада на безвозмездной основе.

 

Результат PROMT 8.0 можно оценить как весьма добротный машинный перевод: точно передан смысл исходного текста, все предложения имеют целостную структуру и легко читаются. Однако, было замечено несколько неудачных формулировок:

· «за судебные издержки»;

· «чтобы собраться на примечании».

Современная веб-версия PROMT, тоже неплохо справилась с задачей, если не считать странную фразу «адвокатские гонорары».

Перевод Google (2007.12) содержит довольно много языковых конструкций, смысл которых совершенно непонятен:

· «положение на адвоката гонорар»;

· «суд даст стороной».

Таким образом, в некоторых предложениях смысл исходного текста можно лишь угадать, но и для этого потребуется несколько раз перечитать полученный перевод. При переводе второго англоязычного текста (заявление на получение кредита) PROMT и Google достойно справились со своей задачей. Google даже отличился и перевел выражение «at no charge» стилистически более точно: «на безвозмездной основе».

На примере проведенного эксперимента, интересно пронаблюдать развитие обеих СМП. Как ни странно, за 3 года PROMPTпрактически не изменился.

Google значительно изменился в лучшую сторону. Последнее наводит на мысль, что потенциал трансфертных систем перевода рано или поздно будет исчерпан, в то время как качество перевода статистических систем перевода будет улучшаться со временем.

Нельзя сказать, что это абсолютно верное заключение. Для строгих прогнозов нужно проводить ряд экспериментов, причем в течение длительного периода.

По заявлениям представителей компании Google, для русского перевода СМП требует еще доводки. Кроме того, компания не делала больших ставок на русский язык. Исследование переводчика Googleна других языках выходит за рамки этой работы. Для компании PROMPT(которая является отечественным производителем) переводы с русского и на русский язык были первоочередной задачей.

Ниже показано, как выглядели соответствующие СМП в 2008 и в 2012 годах. Стоит отметить, что внешний вид переводчика Google за это время нисколько не изменился, только увеличилось количество поддерживаемых языков.

Googleна 2007 год:

 

Google на 2012год:

PROMPT 8.0

 

PROMT (translate.ru) на 2012год

Насколько изменился внешний вид настольного переводчика PROMPT, судить сложно. В данный момент с сайта можно скачать PROMPT 9.0. Версия является платной и в рамках этого исследования я не стал ее рассматривать. Даже без учета платности продукта, на мой взгляд, ясно, что перевод в веб-формате является более удобным. Расстраивает только ограничение на размер исходного текста ‑ 300 символов – но для большинства задач этого хватает. Современные версии обеих СМП обладают обратной связью, таким образом, любой желающий может предложить свой вариант перевода.

 

Обратный перевод

 

Проведем эксперимент с теми же самыми СМП, что и ранее. Будем проводить тестирование на тексте технической тематики:

Перевод, сделанный PROMT, выглядит более понятным. Смысл во всех текстах передан правильно, предложения выходного текста имеют правильную структуру. В качестве недостатка можно отметить, что в некоторых случаях PROMT выбрал не совсем корректный перевод терминов (например, «the rate» переводится во втором отрывке именно как «курс», а «enclosure» правильнее переводить как «приложение»).

В данном случае, было бы интересно выполнить обратный перевод текстов.

Каждой СМП дать перевести результат ее собственного перевода. В идеале мы должны получить исходный текст. В реальности, это совсем не так. Так как при переводе на русский язык были потери, то при таком двойном переводе потери будут более значительными.

Важно отметить, что ситуация аналогично, если текст переводит человек а не машина.

Исходный текст PROMT (translate.ru) Google
The probe is also looking into whether the firm «illegally cut off competitors from distribution channels». Исследование также изучает, отключала ли фирма «незаконно конкурентов от каналов распределения». Зонд также изучает ли фирма «незаконно отрезаны конкурентов из каналов распределения».
The rate of EUR is defined in accordance with Paragraph 3 of the present Contract. Should there be any changes concerning customs, taxes and other dues, the total Contract value must be agreed additionally by both Parties. Уровень ЕВРО определен в соответствии с Параграфом 3 настоящего контракта. Должны там быть любые изменения относительно таможни, налогов и других взносов, полная Договорная стоимость должна быть согласована дополнительно обеими Сторонами. Курс евро определяется в соответствии с пунктом 3 настоящего Договора. Если есть какие-либо изменения, касающиеся таможенных, налогов и других сборов, общая стоимость контракта должны быть согласованы дополнительно обеими Сторонами.
The Parties hereto acknowledge that General Conditions, Enclosure No 2, form an integral part of this Contract. Стороны к этому признают, что Общие условия, Вложение № 2, формируют неотъемлемую часть этого Контракта. Стороны признают, что Общие условия, корпус № 2, являются неотъемлемой частью настоящего Договора.

 

Исходныйтекст PROMT (translate.ru) Google
The probe is also looking into whether the firm «illegally cutoff competitors from distribution channels». Research also studies, whether the firm «disconnected illegally competitors from distribution channels». The probe is also examining whether the firm illegally cut off competitors from distribution channels.
The rate of EUR is defined in accordance with Paragraph 3 of the present Contract. Should there be any changes concerning customs, taxes and other dues, the total Contract value must be agreed additionally by both Parties. EURO level is defined according to Paragraph 3 of the present contract. There should be there any changes concerning customs, taxes and other payments, full Contractual cost should be coordinated in addition both Parties. The euro exchange rate is determined in accordance with paragraph 3 of this Agreement. If there is any change relating to customs, taxes and other fees, the total value of the contract must be agreed upon by both parties.
The Parties hereto acknowledge that General Conditions, Enclosure No 2, form an integral part of this Contract. The parties to it recognize that the General conditions, the Investment № 2, form an integral part of this Contract. The parties acknowledge that the General Conditions, the case number 2, are an integral part hereo

 

Даже беглый просмотр результатов второй таблицы позволяет сказать, что Google лучше справился с этой задачей. Это во многом объясняется принципами его работы. Используемые английские фразы оказались просто наиболее вероятным переводом русского текста.

Текст созданный PROMPTдостаточно далек от оригинала, и не вполне верен с точки зрения грамматики, но основной смысл отрывков был передан верно.

Если вернуться к рассмотренный выше модели шеннона, то шум создаваемый трансфертными СМП, скорее всего является постоянным. Простыми словами, если много раз применять обратный перевод к одному и тому же отрывку, то качество отрывка каждый раз будет ухудшаться плавно. При этом так же плавно будет искажаться смысл текста.

 

Исходный текст PROMT (translate.ru) Google
The probe is also looking into whether the firm «illegally cut off competitors from distribution channels». Исследование также учится, разъединила ли фирма «незаконно конкурентов от каналов распределения». Зонд также изучает ли фирма незаконно отрезать конкурентов от каналов распределения.
The rate of EUR is defined in accordance with Paragraph 3 of the present Contract. Should there be any changes concerning customs, taxes and other dues, the total Contract value must be agreed additionally by both Parties. ЕВРОПЕЙСКИЙ уровень определен согласно Параграфу 3 настоящего контракта. Должны быть там любые изменения относительно таможни, налогов и других платежей, полная Договорная стоимость должна быть скоординирована, кроме того, обе Стороны. Курс евро определяется в соответствии с пунктом 3 настоящего Соглашения. Если есть какие-либо изменения, связанные с таможенными, налогов и других платежей, общая стоимость контракта должны быть согласованы обеими сторонами.
The Parties hereto acknowledge that General Conditions, Enclosure No 2, form an integral part of this Contract. Стороны к этому признают, что Общие условия, Инвестиции № 2, формируют неотъемлемую часть этого Контракта. Стороны признают, что общие условия, случай номер 2, являются неотъемлемой частью hereo

 

Для статистических СМП искажения текста будут меньшими и с каждым обратным переводом они будут уменьшаться пока на фразы на русском и на английском не станут более вероятными с точки зрения системы, при этом смысл может значительно исказиться.

Последнее наводит на мысль, что если статистическая система перевода будет обучена на очень большом количестве текстов, и будет выдавать перевод максимально близкий к переводу человека, то с помощью нее можно будет исправлять стилистические ошибки автора текста. Но до это пока очень далеко.

После сравнения двух совсем разных типов СМП можно придти к следующим выводам.

1. Для практических задач удобнее использовать трансфертные системы. Они наиболее проработаны и переводы, созданные ими, потребуют меньшей правки.

2. Потенциал статистических систем значительно больше, и со временем они будут улучшаться, качество перевода зависит от времени обучения и размера базы.


 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)