АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция
|
Проблеми адекватності машинного перекладу -
1. РОЛЬ МАШИННОГО ПЕРЕКЛАДУ В СУЧАСНОМУ СВІТІ 1.1. Причини та історія виникнення машинного перекладу 1.2. Принципи класифiкацiї систем машинного перекладу 1.3. Підходи до реалізації перекладу СМП 1.4. Існуючі системи машинного перекладу 1.4.1. Системи автоматизованого перекладу 1.4.2. Системи автоматичного перекладу
2. ФУНКЦІОНАЛЬНО-ПРАГМАТИЧНА АДЕКВАТНІСТЬ МАШИННОГО ПЕРЕКЛАДУ 2.1. Проблема еквівалентності та адекватності перекладу 2.2. Типологія помилок 2.3. Помилки перекладу на рівнях мови 2.4. Рівень "розумiння" тексту 2.5. Перспективи розвитку машинного перекладу
ВИСНОВКИ
ВСТУП
Характерними тенденціями розвитку сучасного суспільства є посилення процесів глобалізації та інформатизації, що призводять до збільшення й спрощення інтернаціональних зв'язків і контактів. Розширення глобальної мережі Інтернет надає всі умови для інтернаціонального спілкування - від традиційного листування до голосової та відеокомунікації. Єдиною перешкодою на цьому шляху залишається мовний бар'єр, подолання якого за допомогою традиційного перекладу не розв'язує проблеми повністю, оскільки обсяг перекладів у світі постійно зростає, і навіть збільшення кількості перекладачів не в змозі повністю задовольнити потреби в перекладах. Тотальна комп'ютеризація всього світу та гонитва за новими потужностями серед розробників, удосконалення й вихід нових версій програмних продуктів, спроби зробити програмне забезпечення максимально сумісним із низкою інших приладів та програм, інші ноу-хау індустрії та технічного прогресу майже щодня виводять на ринок нові вироби, які мають бути описані й перекладені якомога більшою кількістю мов для донесення до кінцевого користувача і збільшення обсягів продажу. Однією з можливостей подолання мовного бар'єру у спілкуванні є застосування систем машинного перекладу (СМП) як засобу підвищення продуктивності перекладацької праці. Але машинні перекладачі можуть бути лише підмогою в роботі фахівців різних профілів, і не можуть замінити людей-перекладачів. У першу чергу це пов'язано з тим, що в більшості випадків машинний перекладач не може зробити повністю адекватний переклад з однієї мови на іншу, й машинний переклад тексту дуже сильно поступається перекладу людиною, потребуючи подальшої доробки. Дана робота має на меті вивчення зазначених проблем, а також аналіз деяких лінгвістичних програмних продуктів, спрямованих на автоматизацію процесу перекладу. Наше дослідження спирається на праці з машинного перекладу (Анисимов В., Блехман М.С., Войнов В.К., Марчук Ю.Н., Шаляпина З.М.) та роботи з теорії перекладу (Комиссаров В.Н., Корунец И.В., Швейцер А.Д.). Тема нашего дослідження є "Проблеми адекватності машинного перекладу". Дану тему можна вважати актуальною, оскільки у теперішній час машинні перекладачі стають все більш доступні широким верствам населення багатьох країн, у зв'язку з чим людям все частіше доводиться стикатися з проблемою якості машинного перекладу. Особливої актуальності ця тема набуває, якщо врахувати той факт, що саме в цей час Україна все більше інтегрується в міжнародне співтовариство і, поряд з економічними та політичними бар'єрами, цьому перешкоджають мовні бар'єри. Разом з тим, професійних перекладачів, які здатні й бажають здійснювати подібний процес комунікації спільнот у всіх сферах науки і культури, не так багато, наслідком чого є той факт, що їх послуги не з дешевих. Тому саме зараз особливо актуальним є пошук шляхів надання максимальної допомоги перекладачам. І, якщо не повністю підмінити людину-перекладача програмами-перекладачами, то хоча б максимально автоматизувати процес перекладу, що здійснюється людиною, щоб, з одного боку, максимально полегшити нелегку працю людини-перекладача, а з іншого - зробити цю працю максимально ефективною. Здійснити подібне можна, лише максимально інтегруючи зусилля спеціалістів в галузі кібернетики, програмування, психології та лінгвістики, і відшукавши причину проблеми адекватності перекладу програмами-перекладачами. Це наблизить вирішення даної проблеми і, можливо, дозволить створити таку систему машинного перекладу, яка б дозволила отримувати адекватний переклад тексту без втручання людей-перекладачів. Об'єктом дослідження є переклади, виконані за допомогою систем машинного перекладу "Pragma 5" та "Google Translate", що вивчаються, досліджуються й оцінюються, з урахуванням інформації щодо алгоритмів роботи систем машинного перекладу, їх граматик, словників та внутрішньої побудови.
Предметом дослідження є рівень адекватністі машинного перекладу та можливості її досягнення программами-перекладачами. Мета даного дослідження полягає у вивчені ступіню адекватністі машинного перекладу та у розгляді механізмів, за допомогою яких системи машинного перекладу здійснюють переклад, а також в узагальненні проблем, з якими стикаються системи машинного перекладу для досягнення функціонально-прагматичної адекватністі. Мета дослідження передбачає необхідність вирішення конкретних завдань: - розглянути причини виникнення, сучасний розвиток систем машинного перекладу (СМП) та узагальнити їх типологію у відповідності до певних критеріїв; - виявити підходи до реалізації перекладу у СМП; - з'ясувати проблеми досягнення адекватністі машинного перкладу; - виявити та описати особливості перекладу текстів програмами-перекладачами на основі аналізу зроблених ними перекладів тексту. Матеріалом дослідження стали зразки текстів різної тематики та жанру, при цьому для практичного аналізу було обрано газетну статтю загальним обсягом 17087 знаків та варіанти її перекладу на українську мову, зроблені професіональним перекладачем та системами машинного перекладу Google Translate та Pragma 5. Методи аналізу обумовлені завданнями, що поставлені в роботі. Аналітично-описовий метод дав змогу вивчити об'єкт дослідження, виявити його структурно-семантичні особливості. За допомогою кількісних підрахунків встановлено співвідношення ступенів адекватністі та зроблених помилок перекладу на різних рівнях мови. Для аналізу перекладів залучався комплексний порівняльно-перекладознавчий метод, елементи трансформаційного і контекстуального методів. Наукова новизна дослідження визначається поставленими в ній цілями та задачами та полягає в комплексному вивченні та описі механізмів машинного перекладу, причому вперше особлива увага звертається на рівень розуміння тексту комп'ютером. Також дається альтернативна класифікація інформаційних систем згідно рівня іх розуміння тексту, та визначається рівень розуміння сучасних систем машинного перекладу. Теоретичне значення результатів дослідження полягає в тому, що вони є внеском у формування та вдосконалення понятійного апарату теорії машинного перекладу. Визначено поняття "розуміння" тексту інформаційними системами, а також дана класифікація інформаційних систем згідно рівня іх розуміння тексту. Також виявлено ступень залежності адекватністі перекладу від рівня "розуміння" тексту інформаційною сістемою. Практична цінність одержаних результатів полягає у тому, що вони можуть використовуватися для покращення якості машинного перекладу з англійської мови українською мовою; у виявленні "слабких місць" СМП, що протестовані в цій роботі, та визначенні шляхів їх усунення й удосконалення СМП розробниками. Результати роботи можуть бути корисними для викладання курсів зі вступу до перекладознавства, теорії та практики перекладу, спеціальних курсів із машинного перекладу, інформаційних технологій у перекладацькій діяльності та для підготовки відповідних підручників і посібників, а також для потенційних користувачів систем машинного перекладу, які планують їх придбати й на основі цього дослідження можуть зробити висновки щодо приблизних очікуваних результатів.
1. РОЛЬ МАШИННОГО ПЕРЕКЛАДУ В СУЧАСНОМУ СВІТІ
1.1. Причини та історія виникнення машинного перекладу Переклад наукової, технічної, ділової, правової документації з однієї мови на іншу є невід'ємною частиною науково-технічного прогресу. Рiчнi обсяги перекладів, що виконуються у промислово розвинених країнах, досягають астрономічних цифр i продовжують постійно зростати. Наприклад, сучасне розширення Євросоюзу зумовить зростання кількості офіційних мов союзу до 23. У Європейській комісії підрахували, що обсяги перекладів тільки в її структурах у 2008 році склала 2 млн. 150 тисяч, а відповідні витрати - 305 млн. євро лише для комісії, а для всього ЄС - 697 млн. Нині в штаті Генерального директорату Єврокомісії з перекладу - найбільшій на планеті перекладацької структури - 1750 мовників і 600 допоміжних працівників, плюс перекладачі, що працюють за наймом. Згідно з розрахунками спеціалістів, к 2012 року ці цифри збільшаться приблизно на 50% [66]. Більш того, в епоху міжнародних контактів, що поширюються, завданням особливої важливості стає переклад рiзноманiтної технічної та комерційної документації на мови країн-iмпортерiв продукції. Це завдання ускладнюється як специфікою перекладу на iноземнi мови, так i жорсткими вимогами до якості такого перекладу, що має в цих випадках міжнародне значення. Дж. Слокум, керівник проекту по обробці природно-мовної iнформацiї в рамках програми штучного інтелекту, що виконувалась в корпорації з мiкроелектронiки та обчислювальної техніки (США) [52], стверджує, що науковий робітник того часу фізично був неспроможний переглядати величезну кiлькiсть наукових i технічних документів, чимала частина яких надходила до нього на іноземних мовах. При цьому уважний аналіз усіх іншомовних документів виявляється малоефективним, тому що далеко не кожний такий документ має реальний інтерес для вченого, інженера. Дж. Слокум підкреслює, що англійська мова поступово втрачає своє значення мови міжнародного спілкування: все частіше для опису наукових i технічних досягнень використовуються iншi мови. Таким чином, володіння англійською фахiвцевi уже недостатньо для читання необхідного обсягу документації за спецiальністю.
Щодо розповсюдження iнформацiї, то, як вважає Дж.Слокум, експортер продукції зобов'язаний, як правило, додавати до неї технічну документацію на мові країни, в яку здійснюється постачання. При цьому переклад великого обсягу документації має бути виконаний на дуже високому рiвнi - термiнологiчному i стилістичному. Будучи фактично двомовною країною, що в якійсь мiрi зближає її з такими державами, як Канада, Люксембург, Швейцарiя, Україна мусить вирішити як мiнiмум 2 комплекси проблем у галузі перекладу iнформацiї: переклад з мов міжнародного спілкування на українську та російську мови, а також з української та російської - на мови міжнародного спілкування; росiйсько - український i українсько - російський переклад. Актуальність i складність цих проблем важко переоцінити. Так, одним із завдань державної важливості є переклад державного патентного фонду України, що складає мільйони документів, на українську мову, для чого, в першу чергу, потрібно створити українські термiнологiчнi стандарти та 2-мовнi словники, а також істотно прискорити процес перекладу, інакше українська мова не зможе виконувати функцiї державної на свiтовому iнформацiйному ринку, а це, в свою чергу, ізолює країну від світового співтовариства. Щодо другої групи проблем, варто назвати хоча б одну ціль перекладу з російської мови на українську величезного масиву навчальної та методичної літератури, враховуючи недостачу такої на українському ринку. Як бачимо, в iнформацiйнiй практиці сформувалася очевидна проблема перекладу науково-технічної, комерційної, ділової iнформацiї. Вiдповiддю на соціальний запит подолання мовного бар'єру стало утворення в промислово розвинених країнах iндустрiї машинного перекладу (далі - МП) - галузі комп'ютерної лiнгвiстики, що формувалася з початку 70-х років (хоча перші кроки в цьому напрямі були зроблені в середині 50-х років у США i СРСР). Машинний переклад (Machine Translation, MT) - це технологія перекладу текстів комп'ютерною програмою з однієї мови на іншу [62]. Iндустрiя МП характеризується такими ознаками: - постійно зростаючою кількістю користувачів i виробників систем МП (далі - СМП), широким залученням МП до реальних iнформацiйних процесів; - рiзноманiтнiстю пiдходiв до побудови СМП i, вiдповiдно, опрацюванням великого числа оригінальних пакетів прикладних програм для МП; - використанням для реалiзацiї СМП передової обчислювальної техніки, в тому числі персональних комп'ютерів. Оцінюючи актуальність автоматизації перекладу, Дж. Слокум пише, що фахівця, який бажає бути в курсі подій у науковій, технiчнiй області, цілком задовольняє недорога СМП, яка здійснює швидкий, хоча й недосконалий переклад великих обсягів iнформацiї. В найгіршому випадку, тобто при одержанні від машини перекладу недостатньо високої якості, фахівець може вирішити, чи потрібний йому більш точний інтелектуальний переклад. Що ж стосується перекладу iнформацiї на iноземнi мови, то Дж. Слокум вважає, що вигiднiше користуватися системами машинного перекладу, якi допускають інтелектуальне постредагування, ніж робити повністю "ручний" переклад. Вперше про розширення звичних можливостей перекладу задумався англійський винахідник Чарльз Беббідж, що запропонував наприкінці 1830-х рр. проект першого в історії комп'ютера. Суть роботи машини полягала у використанні потенціалу машинної пам'яті для зберігання словників. Однак втілити у життя свою ідею Беббіджу так і не вдалося. Через сто років, у 1947 р., директор відділення природничих наук Рокфеллеровского фонду Уоррен Уівер розробив меморандум, в якому визначив завдання текстового перекладу з одних мов на інші як ще одну область застосування техніки дешифрування. Слідом за цим пішло обговорення ідеї автоматизованого перекладу і теоретична розробка перших технологій. Висловлювалися припущення про повну заміну людини - перекладача електронними системами, і багато професійних перекладачів побоювалися у найближчому майбутньому залишитися без роботи. У 1954 р. відбувся "Джорджтаунський експеримент": публіці був представлений перший електронний перекладач - російсько - англійска система IBM Mark II, яка містила словник з 250 одиниць і 6 граматичних правил. Протягом наступних 10 років технології машинного перекладу (далі - МП) продовжували стрімко розвиватися, але незабаром стало ясно, що машина не зможе перекладати тексти так само бездоганно, як і людина. У 1967 р. члени Комісії Національної академії наук США виступили з доповіддю, в якій йшлося про нерентабельність машинної праці, виходячи з реальної ситуації в США і показників вартості різних способів перекладу. За підсумками виступу було прийнято рішення припинити подальше фінансування досліджень в області автоматизованого перекладу, щоб загальмувати розвиток МП на довгі роки. Тим не менше, незважаючи на офіційну відмову від розробки перекладацьких технологій, перші системи перекладу продовжували користуватися популярністю у військових та наукових установах СРСР і США.
Новий етап розвитку технологій машинного перекладу пов'язаний з появою обчислювальної техніки в кінці 70-х - початку 80-х рр.. ХХ ст. Програмісти відмовилися від ідеї створення "ідеальної" машини-перекладача: нові системи розроблялися з метою багаторазового збільшення швидкості перекладу інформації, але з обов'язковою участю людини для досягнення ідеальної якості. Черговий виток досліджень в 90-х роках минулого століття пов'язаний з колосальним прогресом сучасних персональних комп'ютерів і появою Інтернету. Можливість перекладу в режимі онлайн дозволів би подолати мовний бар'єр і здійснювати навігацію по іноземним сайтам, але процес подолання мовного бар'єру за допомогою онлайн перекладачів продовжується і зараз. З допомогою систем з технологією Machine Translation можна миттєво отримати чорновий варіант перекладу, коли необхідно швидко вловити загальний зміст тексту. [56] В теперішній час вже розроблено дуже багато СМП, яки класифікуються за різними принципами. Для того, щоб розглядати системи МП з точки зору здатністі адекватно перекладати, треба спочатку розділити їх за принципами їх побудови, виділити ті, що показали найкращі результати, та відокремити системи, що мають ціллю досягнення адекватністі від тих, що розроблені без розрахування на те, щоб система перекладала адекватно. Для цього розглянемо принципи класифікації СМП.
1.2. Принципи класифiкацiї систем машинного перекладу В основі iнженерно-лiнгвiстичного підходу до проблематики машинного перекладу має лежати лiнгвiстична класифiкацiя систем МП. Перш ніж запропонувати типологію систем, визначимо можливі рiзноманiтнi підвалини такої класифiкацiї. Це пояснюється багатоаспектнiстю самої проблематики. Із літератури нам вiдомi такі принципи класифiкацiї. а) Щодо участі ЕОМ у процесі перекладу, обсягу роботи, яку вона "бере на себе", системи МП поділяються на автоматизовані та автоматичні. Першим в англiйськiй мові вiдповiдає термін MAT (machine-aided translation), тобто переклад, який виконується за допомогою машини, а другим - MT (machine translation), тобто машинний переклад. В автоматизованих системах МП людина є обов'язковим учасником процесу перекладу. На частку машини в них приходиться виконання тільки рутинних операцій - пошук слів i словосполучень в автоматичному словнику та виведення їхнього перекладу на екран з можливою наступною вставкою у вихідний текст [47, 294]. Навпаки, в автоматичних системах машина здійснює аналіз вхідного тексту та синтез вихідного, і переклад, хоча й має неминучі лексичні, граматичні, стилiстичнi помилки, в цілому є зрозумілим користувачеві й може бути використаний у вигляді iнформацiйного документу, котрий в деякій мiрi може замінити оригінал. У той же час, такі системи, як правило, мають засоби редагування машинного продукту, що особливо важливо при перекладі текстів, котрі мають статут документів у прямому значенні цього слова, наприклад, технічної документації, котра поставляється за кордон разом з устаткуванням, що експортується [25]. б) Ще однією характеристикою системи МП є кiлькiсть мов, що їх "розуміє" система. Вiдповiдно до даного критерію будемо розрізняти двомовні та багатомовні системи. Перші здійснюють переклад для однієї мовної пари. Якщо ж система охоплює більше однієї мовної пари, вона є багатомовною. У розвиток цього пункту доцільно ввести також такий пiдроздiл систем МП, як оборотність (англійський термін - "two-way systems") i необоротність ("1-way systems"). Системи першого типу перекладають текст тільки "в один бік", а системи другого типу - "в обидві сторони" [62]. в) Важливою характеристикою систем МП є також тип документів, на переклад яких орієнтована система. Зокрема, існують системи, якi працюють тільки з заголовками документів (наприклад, патентів); iншi - здебільшого з технічними специфiкацiями, тощо. Існують також унiверсальнi системи, якi можуть на однаковому рiвнi ефективності перекладати тексти рiзноманiтних типів (try-anything systems - термін Вероніки Лоусон) [50]. Промислові системи МП розрізняються в залежності від тематичних галузей. Визначимо при цьому, що в сучасних системах МП програмне забезпечення залежить тільки від структури лiнгвiстичного забезпечення, але не вiд конкретного наповнення автоматичного словника, i треба розрізняти саме словники систем, а також практичну можливість їхнього поширення. г) У залежності від підходу, на основі якого виконується машинний переклад, СМП поділяються на: статистичні (statistic) та традиційні - системи, які ґрунтуються на використанні лінгвістичних правил (rule-based). д) Суто лiнгвiстичний принцип класифiкацiї [51, 50-51], згідно з яким СМП базуються на використанні лінгвістичних правил, і поділяються на: - системи, що реалiзують прямий переклад (direct translation); - системи, якi базуються на трансферi (transfer approach); - системи з мовою-посередником (interlingua approach). Оскільки два останніх критерії класифiкацiї представляють особливий інтерес для нас у даній роботі, розглянемо їх детальніше.
1.3. Підходи до реалізації перекладу СМП Виходячі з завдань нашого дослідження на основі розглянутих принципів класифікації можна запропонувати наступну типологію СМП: 1. СМП, що реалізують прямий переклад (direct translation); 2. СМП, якi базуються на трансферi (transfer approach); 3. СМП з мовою-посередником (interlingua approach); 4. Статистичні СМП (statistic). При створенні СМП, які базуються на використанні лінгвістичних правил потрібне знання розпізнавання ознак тексту, що відносяться до сфери прагматики: жанр та стиль (наприклад, це публіцистична стаття, вірш чи документ встановленого зразка); область знання, до якого текст відноситься (розпізнавання термінології); зв'язаність частин тексту, що не завжди описується за допомогою синтаксичних чи лексико-семантичних критеріїв; і т.д. Можна вважати, що для адекватного перекладу автоматична система повинна: - знати внутрішні структури мов, між якими здійснюється переклад; - мати ясне уявлення про культуру, історію, мораль, переважні типи мислення народів, що є носіями мови; - володіти по можливості більшим словниковим запасом, більш-менш структурованим по областях застосування слів (спеціальна термінологія, діалекти, ідіоматика, сленг); - мати явний чи інтуїтивний тезаурус слів обох мов, тобто по даному слову вміти запропонувати семантичні функції від нього, такі як синонім, антонім, конверсив, класичний атрибут [15, 180], а також уміти запропонувати похідні частини мови від даного слова, якщо такі існують (добро - добрий - добріше - подобрів і т.п.). Як бачимо, виникає дві взаємозалежні проблеми: 1) формалізація об'єктів з описаних предметних областей, 2) збір фактичного (емпіричного) матеріалу. Приступаючи до їхнього вирішення, розробники отримують "герменевтичне коло" [65]: щоб формалізувати об'єкти, вони повинні мати досить великий обсяг емпіричних даних, на якому можна будувати і перевіряти формальні теорії. З іншого боку, для автоматизованого збору таких даних (а їхній збір повинен бути саме автоматизованим через величезний необхідний обсяг) вимагаються формалізовані уявлення про предметну область. Невеликі і не завжди вдалі просування то в тому, то в іншому напрямку, ймовірно, і дадуть вирішення, однак на даний момент до цього ще далеко, що дає привід деяким фахівцям будувати дуже песимістичні оцінки і прогнози [14, 215]. 1) Системи прямого перекладу будуються, виходячи з такого міркування: нехай маємо дві конкретні мови, на які задіяна дана конкретна система; в основному iнформацiя знаходиться в лексиці [5, 12], тому, в основному, достатньо правильно перекласти лексику вхідного тексту, для чого, зрозуміло, необхідно зняти багатозначність, яка заважає цьому (в першу чергу граматичну), i привести в мiнiмально необхідну вiдповiднiсть вхідній синтаксичній структурі вихідну структуру, щоб лексика вихідного тексту дійсно передавала iнформацiю, закладену в тексті, що перекладається. Ці системи приділяють основну увагу лексиці, ігноруючи "глобальний" синтаксис речення i спираючись на мiнiмальний контекст. Останній при цьому розглядається як квазiсинтаксичне утворення: аналізуються граматичні характеристики слів i їхнє взаємне розташування, але не синтаксична, iєрархiчна органiзацiя речення чи його фрагментів. Важливо пiдкреслити, що при прямому перекладі речення i аналізується, i синтезується не у вигляді синтаксичного утворення, а як сукупність лiнiйних фрагментів. Безумовно, в цій лiнiйностi синтаксичнi зв'язки i залежностi враховуються, але не прямо i далеко не в повному обсязі. Суть прямого перекладу - в гiпотезi, згідно з якою надлишковість мови є такою, що правильний переклад лексики компенсує помилки в граматиці. Можна також припустити, що, чим ближче синтаксичне оформлення текстів двох мов, тим вищою буде якість перекладу. Як показує практика, системи прямого перекладу можуть претендувати, в першу чергу, на одержання сигнальних перекладів, тому що якість вихідного продукту в них є далекою від ідеалу, якщо йдеться про новий текст, котрий, раніше не опрацьовувався системою [8, 47-78]. Системи прямого перекладу можна удосконалювати. Їхній нижчий рівень - послівний переклад; можна було б вказати i вищий, проте головне, що цей вищий рівень існує. Розвивати безмежно такі системи неможливо, основний принцип системи в процесі вдосконалення не змінюється: прямий переклад - це так чи інакше автоматично відредагований підстрочник. Не можна не бачити, що всі перетворення підстрочника базуються на особливостях вхідної структури. Таким чином, якщо підстрочник дав помилковий переклад через невiдповiдність вхідної та вихідної структур, то ця помилка збережеться на всіх наступних етапах обробки. У розвинених системах прямого перекладу застосовуються процедури усунення багатозначності, котрi базуються на аналiзi обмежених лiнiйних контекстів, сегментів. При такому аналiзi, що враховує не залежності слів, а тільки їхнє лiнiйне розташування, існує можливість багатозначного та помилкового виділення фрагментів, що призводить до помилок у побудові вихідного тексту. 2) Як бачимо, помилковий, через неврахування синтаксичної структури речень, підстрочник призводить до того, що, одержавши його, уже пізно будь-що змінювати, помилка залишається. У зв'язку з цим, грубому прямому перекладу протиставляється трансфер-пiдхiд. Його суть: якщо при прямому перекладі лексика часто "не працює" через неврахування синтаксичної ролі слів, то необхідно виявити синтаксичну структуру вхідного речення, трансформувати її у структуру мови перекладу i тільки потім - перекладати на лексичному рiвнi, тобто підставляти слова в синтаксичну структуру вихідного тексту. Для цього конструювалася приблизно наступна схема [14, 124-126; 27, 97; 28, 25]: У вхідному тексті робиться спочатку лексичний аналіз: текст сегментується на речення, розпізнаються скорочення і різні неповні форми слів, що трансформуються в повні, робляться припущення про об'єднання деяких кортежів слів у єдині групи, що можуть розглядатися як форми одного слова. Проводиться морфологічний аналіз: слова приводяться до "основної форми", при цьому зберігаються окремо їхні морфологічні характеристики (префікс, закінчення і т.п.), сукупність яких містить інформацію про їхню граматичну форму (відмінок, час, відмінюваність і т.п.) і ролі. Те ж стосується і згаданих кортежів слів (так has been offered переходить у offer, Present Perfect Tense, passive, singular і т.д.). Після цього проводиться синтаксичний аналіз, при якому розпізнаються словосполучення, типи відносин між словами і більш великими синтаксичними одиницями, а також ідіоматичні ланцюжки (звороти). Звичайно, отримана структура залишається найбільш глибинним уявленням структури речення. Однак, нерідко, особливо в ситуації виникнення омонімії, звертаються до елементів семантики слів. На цьому ми докладніше зупинимося нижче. Отримана формальна структура піддається трансферу, тобто складові її елементи перекладаються в іншомовні еквіваленти. Далі структура розгортається в лінійний текст відповідно до законів вихідної мови, проходячи в зворотному порядку всі описані вище етапи. Як видно, цей план дуже схематичний і допускає величезну кількість варіацій. У першу чергу, багатьма дослідниками ставиться під сумнів необхідність у чіткому розподілі різних етапів (рівнів) аналізу, а згодом синтезу речення. Практика показує, що на кожному з них виникає потреба в періодичному зверненні і до верхніх, і до нижніх рівнів. При детальному проходженні по цій схемі виникає необхідність у створенні відповідних словників для кожного з них. Чи існує можливість створити єдиний словник, що містив би всю потрібну інформацію, які повинні бути принципи його організації - донині залишається питаннями досліджень. Існують і інші "шорсткості". Проте сучасні системи автоматичного перекладу дотримуються цієї, досить природної, схеми. СМП, які базуються на цьому підході, показують кращі результати перекладів, ніж ті, що реалізують прямий переклад чи використовують мову-посередник [40]. 3) Історично першими стали розроблятися двомовні системи автоматичного перекладу, тобто такі, у яких заздалегідь були задані вхідна і вихідна мови. Згодом стали з'являтися багатомовні системи, до яких відносяться і ті, що здатні перекладати тільки між двома мовами, але в обох напрямках [27, 215; 24, 158; 3, 126]. Двомовні системи дозволяють виконувати найбільш точний переклад, однак вже дуальні системи (тобто, наприклад, російсько-англійські та англо-російські) вимагають окремої розробки. Ріст кількості таких систем буде пропорційний факторіалу числа мов, між якими повинен здійснюватися переклад. Тому нерідко використовують методику мови-посередника чи "шлюзів". Мова-посередник має на увазі транзитивний переклад замість прямого: якщо ми маємо, приміром, гарну систему англо-російського перекладу, то нам набагато простіше побудувати транзитивну англо-російсько-українську систему, ніж пряму англо-українську. "Шлюз" виникає (для даного прикладу), якщо вихідний текст спочатку перекладається, скажемо, з німецької мови на англійську, потім проходить англо-російський "шлюз", і потім перекладається на українську. Звичайно, якість перекладу помітно погіршується, але такий підхід виправданий своєї прагматичністю. Якщо ми маємо n мов, відповідних одному "виходу шлюзу", і k мов, відповідних іншому, то для перекладу з однієї групи в іншу нам необхідно будувати не n*k систем, а тільки (n+k-1), кожна з яких (крім самого "шлюзу"), через спорідненість, значно простіша, ніж будь-яка з цих n*k. Для взаємодії в середині груп може використовуватися одна мова посередник (наприклад, що бере участь у "шлюзі"); тоді число потрібних систем скоротитися з n! до (n -1). Таким чином, підходи, що використовують мову-перекладач і "шлюз", виглядають дуже привабливими. Наступним логічним кроком напрошується створення єдиної універсальної мови-посередника. Саме створення, оскільки жодна з реально існуючих мов не годиться для повноцінного виконання такої ролі. Ця гіпотетична мова - універсальний посередник - дістала у літературі назву "інтерлінгва". Її створенням займалися багато дослідницьких колективів; особливо слід зазначити гренобльську школу під керівництвом професора Буате. Зрозуміло, що інтерлінгва не має потреби в певному синтаксисі, тобто правилах перекладу значеннєвої структури в лінійний текст. Однак вона повинна, з іншого боку, бути ідеально пристосованою для вираження саме значеннєвої структури тексту. Звичайно, залучення семантичних характеристик розглядається не тільки в зв'язку з побудовою перекладу інтерлінгви. Усі діючі системи автоматичного перекладу тією чи іншою мірою використовують їх. Розроблено різні механізми відображення семантичної структури пропозиції і тексту - семантичні множники, понятійні класи, асоціативні мережі, семантичні функції і т.д. У радянській математичній лінгвістиці широкий резонанс мала робота [2; 15, 180], присвячена саме цій тематиці. Однак жодної системи автоматичного перекладу, що містить повноцінний етап семантичного аналізу, реалізовано не було. Семантична модель не виявилася спроможною повноцінно описати навіть одну мову, не говорячи вже про їх універсум. Ми уже відмічали, що поділ рівнів (етапів) аналізу тексту (речення) дуже умовний і не завжди виправданий. Очевидно, семантика не може бути відірвана від підпорядкованих їй рівнів деталізації тексту, а отже, і семантична модель не може бути незалежної від мови. Нарешті, формалізація семантики, не будучи внутрішньою властивістю її, приносить свої перекручування і проблеми. Ю.Д. Апресян писав у своєї праці: "При переході з одного рівня на іншій, більш глибокий, омонімія попереднього рівня дозволяється засобами наступного рівня, але на кожному більш глибокому рівні виникає своя омонімія. Надії на те, що використання семантичної, парадигмальної, ситуаційної, енциклопедичної чи будь-якої іншої складної інформації спростить і полегшить пошук правильної інтерпретації речення в множині формально бездоганних альтернативних інтерпретацій, ілюзорні." [3, 274]. 4) При статистичному підході проблема перекладу розглядається в термінах каналу з перешкодами. Уявимо собі, що нам потрібно перекласти пропозицію з англійської на російську. Принцип каналу з перешкодами пропонує нам таке пояснення відносин між англійським і російським словосполученням: англійська пропозиція являє собою не що інше, як російську пропозицію, викривлену якимось шумом. Для того, щоб відновити початкову російську пропозицію, нам потрібно знати, що саме люди зазвичай говорять по-російськи і як російські словосполучення спотворюються до стану англійської. Переклад здійснюється шляхом пошуку такої російської пропозиції, яка максимізує твори безумовної ймовірності російської пропозиції та ймовірності англійської пропозиції (оригіналу) за умови даного російської пропозиції. Згідно теореми Баєса, ця російська пропозиція є найбільш імовірним перекладом англійської: , де e - речення перекладу, а f - речення оригіналу Таким чином, нам потрібна модель джерела і модель каналу, або модель мови та модель перекладу. Модель мови повинна привласнювати оцінку ймовірності будь-якій пропозиції кінцевої мови (у нашому випадку російської), а модель перекладу повинна привласнювати оцінку ймовірності пропозиції оригіналу за умови певної пропозиції на кінцеву мову. У загальному випадку система машинного перекладу працює в двох режимах: 1. Навчання системи: береться тренувальний корпус паралельних текстів, і за допомогою лінійного програмування шукаються такі значення таблиць перекладних відповідностей, що збільшує ймовірність (наприклад) російської частини корпусу при наявної англійської відповідно до обраної моделі перекладу. На російській частині того ж корпусу будується модель російської мови. 2. Експлуатація: на основі отриманих даних для незнайомої англійської пропозиції шукається російська, максимізується створення ймовірностей, що привласнюється моделлю мови і моделлю перекладу. Програма, яка використовується для такого пошуку, називається дешифратор. В якості моделі мови в системах статистичного перекладу використовуються переважно різні модифікації n програмної моделі, яка стверджує, що граматичність вибору чергового слова при формуванні тексту визначається тільки тим, якщо (n - 1) слів йдуть перед ним, де n - ціле позитивне число. Ймовірність кожного n-грами визначається за його повторюваності у тренувальному корпусі. Найбільш простою статистичною моделлю перекладу є модель дослівного перекладу. У цій моделі, відомої як Модель IBM № 1, передбачається, що для перекладу пропозиції з однієї мови на іншу досить перекласти всі слова, а розміщення їх в правильному порядку забезпечить модель мови. Єдиним масивом даних, яким оперує Модель № 1 під час перекладу, є таблиця ймовірностей попарно перекладених відповідностей слів двох мов. Слабкість Моделі № 1 полягає в тому, що іноді з точки зору моделі мови пропозиції деякі сегменти словосполучення можуть мати приблизно рівну ймовірність, хоча деякі з цих варіантів можуть явно спотворювати зміст. Крім того, Модель № 1 допускає ситуацію, в якій найбільш вживаним перекладом кількох смислових слів може бути визнано одне високочастотне, наприклад, службове слово мови перекладу. Щоб зберегти при перекладі інформацію, укладену в порядку слів, була запропонована Модель IBM № 2. В цій моделі крім таблиці переказів вводиться таблиця ймовірностей зворотних зсувів, тобто ймовірностей, що при певній довжині пропозиції в мові перекладу l і довжині пропозиції в мові m оригіналу слову перекладу в позиції j буде відповідати слово оригіналу в позиції i. Модель № 2 не допускає можливості, що одному слову оригіналу відповідає кілька слів перекладу. Цей недолік усувається в Моделi № 3, де вводиться поняття коефіцієнта розподілу (fertility) слова оригіналу і, відповідно, таблиця ймовірностей кожного значення коефіцієнта розподілу для кожного слова. Крім цього в Моделi № 3 використовується поняття нульового слова, яке, відповідно до генеративної теорії Моделі № 3, з певною ймовірністю p породжує "незрозумілі" слова перекладу. "Незрозумілими" словами заповнюються позиції, незайняті "нормальними" словами. Модель № 3 є однією з найбільш активно розроблюваних - мабуть, вона досягає деякого оптимального балансу між якістю породжуваних перекладів (і поясненням фактичних відповідностей у двомовному корпусі) і складністю навчання. Однак ця модель не закриває список класичних статистичних моделей перекладу. У Моделі № 4 і близькою до неї Моделі № 5 робиться наступний крок до включення понять граматики в систему статистичного машинного перекладу. У Моделі № 4 з'являється поняття класу слів, яке визначається автоматично для всіх слів мови оригіналу та мови перекладу. Якщо в Моделi № 3 зміщення залежало від позиції слова оригіналу, довжини вихідної пропозиціїі, довжини кінцевої пропозиції (у практичних реалізаціях моделі № 3 останній аргумент не використовується у зв'язку з проблематичністю його обчислення a priori), то в Моделi № 4 зміщення залежить від класу слів оригіналу та перекладу. У Моделі № 4 слова перекладу поділяються на великі (heads), незаглавні (non-heads) та похідні від нульового слова. Заголовне слово - це ліве (перше) слово, пов'язане з певним словом оригіналу, незаглавне слово - це інше слово, пов'язане з тим же словом оригіналу (з'являються тільки у слів з коефіцієнтом ділення x3e 1). Зміщення заголовних слів визначається, виходячи з класу попереднього слова оригіналу та розглянутого слова перекладу. Зміщення незаглавних слів визначається на основі класу попереднього слова в ланцюжку, залежною від слова оригіналу. Похідні від нульового слова, як і в Моделі № 3, розставляються випадковим чином. Навчання моделей № 2 - № 5 відбувається аналогічно Моделі № 1. Так як кожна інтеграція навчання більш складних моделей займає значно більше часу, ніж для простих моделей, то зазвичай перед початком навчання складних моделей проводиться декілька інтеграцій молодших моделей (починаючи з першої), а потім їх результати перетворюються у формат більш високих моделей. Таким чином, оптимізація старших моделей починається не з випадкового рішення, а з деякого рішення, досить близького до оптимального [29; 55]. Із пристроїв СМП, що базуються на статистичному підході випливає, що якість перекладу цих СМП залежить від того, наскільки правильно вона визначить зміст фрази і наскільки вона орієнтується в мові перекладу, що в свою чергу залежить від кількості та якості баз даних словесності та фразової відповідності. Кількість же і якість баз залежить в першу чергу від обсягу та якості проаналізованих перекладів текстів, зроблених людьми, а також простих текстів на мові перекладу.
Отже, розглянувши підходи до побудови систем МП, ми отримали уявлення про те, якими принципами програми-перекладачи користуються, коли перекладають текст з одної мови на іншу. Це є суттєвим для з'ясування причин проблем досягнення адекватністі перекладу СМП. Майже усі існуючі СМП побудовані на розглянутих вище принципи.
1.4. Існуючі системи машинного перекладу Подальше заглиблення в проблематику машинного перекладу неможливе без огляду існуючих систем МП. Не зробивши такого огляду, ми залишимось на рiвнi "чистої" теорії, не пiдкрiпленої фактами. Цей огляд не претендує на вичерпну повноту, тому що кiлькiсть діючих систем є досить великою. Поставимо перед собою інше завдання: з'ясувати основні ідеї, що лежать в основі існуючих систем.
1.4.1. Системи автоматизованого перекладу Почнемо огляд із систем автоматизованого перекладу, або, як їх ще називають, автоматизованих робочих місць (далі - АРМ) перекладача. Початок опрацюванню АРМ перекладача покладено системами ALPS i Weidner [14, 46-48]. Розробники цих систем вважають, що машина в принципі не може забезпечити переклад високої якості, тому ЕОМ має допомагати перекладачеві, а не замінювати його. Сімейство Automatic Language Processing Systems Розробники сiмейства ALPS (США, Канада) вважають, що істотним недоліком бiльшостi систем машинного перекладу є те, що вони розраховані на заміну перекладача машиною. В зв'язку з тим, що машинний продукт, одержаний засобом "роботи в нічну зміну", всеодно потребує стилістичного редагування, фiрма ALPS запропонувала у вигляді альтернативи системам МП автоматизоване робоче місце перекладача, що дозволяє підвищити продуктивність праці в чотири рази. До переваг таких систем, у першу чергу, відносяться якiснi показники перекладу та простота лiнгвiстичного забезпечення, яка спрощує, зокрема, тиражування системи. Робота в режимі діалогу з ЕОМ для перекладача потребує менше зусиль й більш цікава, ніж постредагування машинної "заготовки". Сімейство ALPS надає різним установам можливість придбати одну з систем з апаратурним, лiнгвiстичним i програмним забезпеченням різного рівня складності чи замовити переклад. Фірма тиражує системи трьох рiвней: Selective Dictionary Lookup - система, що по слову, зазначеному користувачем, забезпечує миттєвий доступ до словникової iнформацiї. Automatic Dictionary Lookup (ADL) - система, що послівно надає перекладачеві перекладні еквіваленти з автоматичного словника i має блок морфологічного аналізу для ототожнення рiзноманiтних словоформ одного слова. Так, при появі у вхідному тексті словоформ write, wrote, written система ADL запропонує перекладачеві словникову iнформацiю по слову write. Перекладні еквіваленти, що пропонуються системою, автоматично вводяться в текст. Проте синтаксичне i морфологічне оформлення кожного речення i всього тексту на вихiднiй мові в цілому залишається за перекладачем. Система ADL передбачає переклад з англійської, французької, німецької, іспанської та iталiйської мов на ці та iншi мови латинського алфавіту. Computer Translation System (CTS) - система, що перекладає текст по реченнях, використовуючи як словникову iнформацiю, так i правила узгодження, порядку слів тощо. Перекладач у діалоговому режимi редагує текст, одержаний від системи, уточнюючи вибір перекладних еквiвалентiв, а також стиль вихідного речення; CTS розпізнає в тексті складні конструкції та багатозначні слова й надає людині рiзноманiтнi можливості їх перекладу, а саме: а) при перекладі багатозначних слів на екрані висвітлюється контекст цього слова; в словнику допускаються коментарі, що полегшує вибір перекладеного еквівалента. Якщо перекладача не задовольняє жоден із варiантiв, наданих йому машиною, він може тут же внести зміну в словник чи дати інший переклад слова, без корегування словникової статті; б) при перекладі складних чи неоднозначних синтаксичних конструкцій система виявляє неоднозначний вислів i звертається за допомогою до перекладача, який набирає на клавiатурi правильний переклад i вводить його в машину. Після цього машина продовжує роботу над текстом до наступного "складного місця". Беззаперечною перевагою CTS є формування системою поточного словника, в якому запам'ятовуються тi переклади термiнiв, котрим перекладач віддає перевагу в даному сеансі, i виправлені помилки; система керується цією iнформацiєю до закінчення перекладу даного документу. Системи сімейства Weidner Системи Weidner були одними з перших АРМ перекладачів на світовому ринку. Ці системи [14, 49] також орiєнтованi на переклад "машина-людина" різного ступеня автоматизації, який бiльш продуктивний, ніж ручний, i, з точки зору розробників систем, на вiдмiну вiд машинного, забезпечує більш високу якість вихідного продукту. Розроблені й функціонують в промисловому режимі три конфiгурацiї систем Weidner. Перша, найбільш проста, складається з текстового процесора i модему для телефонного зв'язку з головною ЕОМ. У цій конфiгурацiї використовуються персональні комп'ютери фірми IBM i програмне забезпечення теледоступу. Вхідний документ вводиться з клавіатури i передається в центральний процесор для перекладу. Залежно від вимог користувача, перекладацька фірма, в якій установлений центральний процесор, надає або грубий (машинний), або частково опрацьований людиною, або закінчений переклад вхідного тексту. Дана конфiгурацiя є найбільш рентабельною для органiзацiй, в яких обсяг текстів, що перекладаються, складає до 250 тис. слів на рік. Її використання доцільно також для попереднього іспиту можливостей системи, що дозволить прийняти обґрунтоване рішення про використання в цій органiзацiї більш складних її конфiгурацiй.
Друга конфiгурацiя системи Weidner представляє собою самостійну систему автоматизованого перекладу, яка працює на персональному комп'ютері IBM. Текст вводиться або з диску, або вручну з клавіатури. "Грубий" машинний переклад з'являється на екрані поряд із вхідним текстом. Перекладач використовує запропонований переклад як заготовку, з якої він формує остаточний варіант, користуючись системними засобами додання, вилучення, перестановки та заміни слів i виразів. Система поставляється з автоматичним словником, що покриває 95% загальновживаної лексики. Користувач може доповнити словник спеціальною термiнологiєю. Обсяг словника складає понад 40 тис. слів i словосполучень. Третя, найбільш потужна конфiгурацiя системи Weidner працює на мiнi-ЕОМ VAX серiї Digital PDP/11, пов'язаних з будь-якою кiлькiстю персональних комп'ютерів IBM, якi виконують функції інтелектуальних термiналiв. Процес перекладу аналогічний роботі другої конфiгурацiї, але при цьому швидкість зростає в три рази. Передбачено підключення рiзноманiтних периферійних приладів - фотонабору, введення тощо. Персональні комп'ютери можуть самостійно використовуватися для процедур редагування, звільняючи на цей час центральний процесор. Переклад на базі мiнi-ЕОМ розрахований на обробку великого обсягу iнформацiї, до десятків мiльйонiв слів на рік. Ця конфiгурація є особливо ефективною при роботі у великих перекладацьких установах. Серед мов, з яких i на якi можливий переклад, розробники зазначають англійську, французьку, іспанську, німецьку, португальську, арабську та ін. Розробники систем Weidner бачать три напрямки розвитку своїх систем: - постійне вдосконалення програмного i лiнгвiстичного забезпечення, поширення словників, ускладнення апарату синтаксичного аналізу; - збільшення кiлькостi мовних пар; - підключення системи перекладу до банків даних i автоматизованих систем управління. Як бачимо, утворення перших АРМ, що стали уже класичними, було для їх розробників не тільки самоціллю, але й основою побудови систем з більшою автоматизацією перекладу, ніж тільки пошук слів у словнику. У той же час, на світовому ринку пропонуються й такі АРМ, що не мають блоку автоматичної обробки речення, що перекладається. Однією з таких систем є реалізована на персональних комп'ютерах IBM РС система Termex [53, 37]. Система розроблена фірмою Linguatech International (США) i орієнтована на основні європейські мови, крім слов'янських. На вiдмiну від систем МП, система типу "АРМ перекладач" тільки допомагає людині, що виконує переклад i звертається до машини за перекладом окремих слів i словосполучень. Система Termex працює в одновіконному режимі i дозволяє перекладачеві друкувати текст перекладу, одержуючи його відображення на екрані. Якщо користувач хоче знайти в машинному словнику переклад якогось словосполучення, то він натискає клавiшi Alt-L. У нижній частині екрану з'являється вікно, в яке перекладач надруковує незнайоме словосполучення чи перші літери. У вiдповiдь система виводить на екран, у те ж вікно, всю словникову iнформацiю про дане словосполучення: його переклади; контексти, в яких воно може зустрічатися; синоніми. Вибравши найбільш прийнятний переклад, користувач друкує його номер, i перекладене словосполучення автоматично вставляється у вихідний текст. Словникова стаття у словниках Termex містить поле фіксованої довжини (50 символів) для вхідного слова або словосполучення, а також поле перекладу змінної довжини. Довжина словникової статті - до 900 символів. Швидкість пошуку слова (словосполучення) - 1-3 секунди. Для системи Termex пропонується широкий набір електронних словників по таких тематичних областях, як економіка, аеронавтика, механіка, електротехніка, обробка даних, міжнародна торгівля, юриспруденція, а також словників загальновживаних слів. Мови словників: англійська, французька, німецька, голландська, іспанська, iталiйська. Пропонуються 2-, 3- i 4-мовнi словники. [68] Iншi АРМ перекладачі Фірми Trados Gmbh, Штутгарт, Німеччина, пропонують комплекс Translator's Workbench [44], який складається з трьох модулів: - 14-мовної термiнологiчної бази даних Multiterm; - програми аналізу текстів, яка дозволяє знайти в тексті i перекласти всі слова, що є в базі даних; - АРМ перекладача TED, який забезпечує користувачеві роботу в одно- або двовiконному режимах. Крім того, TED може працювати резидентно з текстовими редакторами. Англійська фірма Microtac Software поставила на ринок АРМ French Assistant для перекладу з англійської мови на французьку [81; 54]. Працюючи в умонтованому текстовому редакторі цієї системи, користувач може надрукувати в створюваному їм французькому тексті англійське слово, французький переклад якого йому невідомий, одержати переклад i автоматично вставити його в текст замість вхідного англійського. Аналогічно можна перекладати з французької мови на англійську. Особливістю French Assistant є наявність підказок про граматичні форми французьких дiєслiв, що дозволяє користувачеві не тільки знаходити французькі переклади англійських слів, але й будувати складні тексти, вибираючи правильні форми цих дiєслiв.
АРМ перекладача Lingvo 3.0 [60] представлений на ринку СНД фірмою "БИТ" (Москва). Система електронних словників Lingvo містить сотні тисяч лексичних одиниць у багатьох англiйсько - росiйських i росiйсько - англійських словниках, дозволяє користувачеві перекладати тексти з екрану i клавіатури, не припиняючи основної роботи комп'ютера, створювати свої словники, вставляти переклад у текст, що редагується. Забезпечується пошук слів на частковий збіг. Можна сказати, що ця система є прикладом програмного підходу до побудови лiнгвiстичних систем. АРМ перекладача RDT (Resident Dictionary Tool) фірми "Медiком" дозволяє працювати зі зворотними словниками, орієнтованими на такі мовні пари, в яких одна мова - західноєвропейська, а друга - російська або українська. RDT підтримує велику кiлькiсть оборотних 2-мовних словників загальновживаної та термiнологiчної лексики англійської, німецької, іспанської, російської, української мов, у тому числі англiйсько-українськi словники. RDT працює у двох режимах - автономному та резидентному. У першому користувач може переглянути i поповнити словник, у другому - працювати з будь-яким текстовим редактором, що пiдтримуює текстові файли в ASCII форматі, проводити пошук i вставляти переклад безпосередньо в текст. Система забезпечує 8 видів пошуку слів i словосполучень, у тому числі на повний i частковий збіг, входження слова в словосполучення, сумісне входження двох слів у словосполучення тощо. У RDT передбачені поля граматичної iнформацiї та транскрипції. Отже, з вище наведеної інформації можна зробити логічний висновок про те, що системи автоматизованого перекладу можуть стати альтернативою СМП у тому випадку, якщо система МП генерує переклад такої низької якості, що його не можливо зрозуміти користувачеві.
1.4.2. Системи автоматичного перекладу У галузі автоматичного перекладу обнадiйливi результати одержано при опрацюванні систем прямого перекладу, тобто систем, основаних на використанні великих словників i порівняно простих алгоритмів морфологiчно-синтаксичного аналізу тексту-оригіналу i синтезу текста-перекладу. Але прямий переклад не є єдиним засобом комерційного МП, тобто перекладу, до якого звертається велика кількість людей. Іншою концепцією є ідея трансферу - впровадження в систему блоку перетворення структури вхідного тексту у вiдповiдностi з правилами мови. Таким чином, схема прямого перекладу "Аналiз-Синтез" ускладнюється i перетворюється в схему "Аналiз-Трансфер-Синтез". Ця схема реалізована, зокрема, в одній з найвiдомих систем - METAL (США, Німеччина) [51, 43]. Важливо визначити, що деякі системи широко використовують не тільки граматичну, але й семантичну iнформацiю. Наприклад, система ATLAS-1 [49, 22], що призначена для перекладу технічної документації - звiтiв про НДР i ДКР, супровідну документацію. В деяких випадках для аналізу синтаксичної структури i усунення лексичної багатозначності використовуються семантичні ознаки. Нарешті, подальший розвиток систем машинного перекладу привів дослiдникiв до побудови систем з мовою-посередником, головна ідея яких - аналіз змісту тексту та його подання на спецiальнiй мовi, яка не залежить від будь-якої природної мови. Фірма "Траду" [46, 20] розробила систему Ultra. Автор розробки - група під керівництвом Йорика Уiлкса. Система складається з модулів англійської, іспанської, німецької, японської та китайської мов. Словник кожного з цих модулів містить 10 тис. значень з простого ділового листування. Iдеологiя систем МП з мовою-посередником знайшла широке застосування в Японії. Більш докладно зупинимося на системах, здатних перекладати тексти з англійської на українську мову. На сьогоднішній день найбільш відомі 2 такі СМП: Google Translate Beta компанії Google і СМП Pragma 5.x компанії Trident Software. У зв'язку з тим, що онлайн перекладачі не тільки доступні, але також використовують найсучасніші словники і технології перекладів, ми будемо використовувати для дослідження онлайн версії даних СМП, що знаходяться відповідно на сайтах http://translate.google.com і http://www.trident.com.ua/ukr/online.php. Trident Software - невелика компанія розробників програмного забезпечення з великими амбіціями й інтересами, зосередженими в наукоємній галузі машинного перекладу. Компанія була заснована в 1998 році і за цей час розробила декілька видів продуктів, серед яких - Pragma. Компанія досягла якнайкращих результатів в перекладі для української і латиської мов, а також достатньо хорошої якості для інших напрямів перекладу. У даний час продукт Pragma 5.x включає шість мов - англійську, німецьку, латиську, російську, українську і польську. Користувачами програмного забезпечення компанії Trident Software є Верховна Рада України, Секретаріат Президента України, Кабінет Міністрів, Національний банк і більшість інших урядових установ в Україні, великі індустріальні та фінансові компанії, всі загальноосвітні школи України, а також малий бізнес та приватні особи як в Україні, так і по всьому світу.
Ядро перекладу Pragma базується на СМП SYSTRAN 5, яка збудована на принципі трансфер-підходу. Вона була розроблена на замовлення військово-повітряних сил США. Протягом 1974-1975 років вона була використана аерокосмічною асоціацією NASA для перекладу документів у міжнародному проекті стиковки космічних кораблів Аполлон-Союз. Було розгорнуто ряд військових програм створення інтерфейсів "людина-машина" природною мовою. У 1983 році міністерство оборони США започаткувало "стратегічну комп'ютерну ініціативу" - десятилітню програму створення нового покоління "інтелектуальних" військових систем [1, 37]. Всі комбінації напрямів перекладу взаємозамінні, окрім англо-російської пари. Ця пара - головний міст між романо-германською і слов'янською групами. Так, україно-англійський переклад виконується частково безпосередньо, але в більшій мірі по російсько-англійському напряму. Головна проблема перекладу - багатозначність слів - вирішена двома способами. Перш за все - спеціальне маркування слів по тематичній спрямованості (близько сотні тематик). По-друге - об'єднання слів у фрази, які мають вищий пріоритет під час перекладу [86]. Google Translate - це сервіс компанії Google, що дозволяє автоматично перекладати слова, фрази та web-сторінки з однієї мови на іншу. Google використовує власне програмне забезпечення для перекладу. Використовується підхід статистичного машинного перекладу, у якому максимальна довжина контексту є 5 слів, а фрази - 6. У більшості сучасних комерційних систем машинного перекладу використовується підхід на основі правил. У цьому випадку від лінгвістів потрібні великі зусилля по створенню словників та визначення використовуваних правил граматики. Система Google працює трохи інакше. Вона аналізує великі обсяги тексту (мільярди слів) на різних мовах, а також оригінали та переклади, зроблені професійними лінгвістами. Потім за допомогою спеціальних методик формується модель для перекладу тексту з однієї мови на іншу. З вересня 2008 року підтримується й переклад на українську мову. Для покращення якості перекладу необхідні корпуси паралельних текстів чи колекції пам'яті перекладів [85]. Щодо ефективністі систем МП, то І. В. Корунець у своїй роботі стверджує, що досі не існує таких машинних перекладачів, результат перекладу яких не потребував би в постредагування людиною [23, 26-27]. Не дивлячись на поширену думку вирішальної ролі граматики у створенні кращої СМП [5, 12-17; 32, 6-8], а також на те, що більшість існуючих систем базуються саме на підході використання граматичних правил, багато хто стверджують, що СМП може ґрунтуватися на інших принципах. Наприклад, автори роботи "Автоматичний переклад на інформаційній мові" доводить, що відсутність граматики у пропонованій ними системі "викликає лише п'яту частину інформаційного шуму", і відкидання синтагматичних відносин "цілком узгоджується з характером інформаційно-пошукової мови, яка є спрощенням природної мови "[33, 18, 26], а творці СМП Google Translate стверджують, що статистичний підхід багатообіцяючий, ніж інші, і, судячи за відгуками [63; 55; 59], надає цілком конкурентоспроможну якість перекладу своїй СМП на доказ цього. Зроблений огляд висвітлив, що необхiдно виявити, наскільки основні існуючі СМП дієві у створенні адекватного перекладу текстів, який підхід на даний момент більш ефективний, і в якого підходу більш широкі можливості до майбутнього розвитку. Для цього необхідно розглянути, які рівні мови і наскільки комп'ютер здатний розуміти.
2. ФУНКЦІОНАЛЬНО-ПРАГМАТИЧНА АДЕКВАТНІСТЬ МАШИННОГО ПЕРЕКЛАДУ
2.1. Проблема еквівалентності та адекватності перекладу У зв'язку з тим, що МП використовується все частіше і стає доступнішим для широких верств населення, проблема якості перекладу стає все актуальнішою. Між тим, навіть самі фірми - виробники СМП відкрито заявляють [55; 86; 62; 71], що якість машинного перекладу далека від ідеалу і лише в рідкісних випадках машинний переклад є адекватним. Але, аналізуючі ступень адекватністі перекладу, перш за все необхідно визначити чітку кореляцію понять адекватністі і еквівалентності. Отже, переклад незмінно розглядається як спосіб забезпечити спілкування між різномовними комунікантами шляхом відтворення на іншій мові повідомлення, що міститься в початковому тексті. У найбільш загальному плані мовознавці зазвичай визначали переклад як заміну тексту на одній мові текстом на іншій мові, лише потім приступали до вивчення вимог, якими повинен задовольняти створюваний текст, щоб бути повноцінною заміною оригіналу, і відносин, що виникають між текстами оригіналу та перекладу в цілому і між окремими частинами та одиницями цих тестів. Таким чином, лінгвістична теорія перекладу вивчає співвідношення одиниць двох мов неізольовано, а в текстах певного типу (оригіналах та їх перекладах), і всі дані, якими ця теорія оперує, отримані з порівняльних вивчень таких текстів. [26, 26] Порівняльне вивчення текстів оригіналу та перекладу може охоплювати різні сторони їх формальної та змістовної структури таких текстів. Але центральним питанням теорії перекладу залишається всебічний опис змістовних відносин між цими текстами, розкриття понять еквівалентності та адекватності перекладу. В першу чергу завдання перекладача, безсумнівно, полягає у відтворенні змісту оригіналу. Але що це значить? Що являє собою відтворюваний зміст? Які критерії правильності вибору мовних засобів для досягнення адекватності перекладу? Ці питання вже багато років активно піднімаються в лінгвістиці (Рецкер, 1974; Сидоров, 1981; Пінягін, 1981; Швейцер,1988; Комісаров, 1988 та ін.) Поиск по сайту:
|