АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Загальна характеристика особливих типів корпусів

Читайте также:
  1. I Тип Простейшие. Характеристика. Классификация.
  2. I. Электрофильтры. Характеристика процесса электрической очистки газов.
  3. II.2 Стилистическая характеристика рекламного текста
  4. III. Социолингвистическая характеристика
  5. А30. Эллинистический Египет (общая характеристика социально-экономических и политических отношений).
  6. А31. Держава Селевкидов (общая характеристика социально-экономических и политических отношений).
  7. Абсолютизм. Общая характеристика. Особенности стиля. Используемые композиционные решения, конструктивные элементы и строительные материалы. Ключевые здания. Ключевые архитекторы.
  8. Амплитудно-частотная характеристика и способы ее измерения
  9. Анализ издержек начинается с построения их классификаций, которые помогут получить комплексное представление о свойствах и основных характеристиках.
  10. Анализ структуры и системы управления организации, общая характеристика
  11. Архитектура кхмеров. Общая характеристика. Особенности стиля. Используемые композиционные решения, конструктивные элементы и строительные материалы. Ключевые здания.
  12. Аутизм. Этиология и виды аутизма. Психологическая характеристика аутичных детей.

 

Паралельні корпус и можна розділити на два основних типи:

1) корпуси, що представляють безліч тек стів - оригіналів, написаних на якому-небудь вихідному мовою, і текстів - перекладів цих вихідних текстів на один або декілька інших мов;

2) корпуси, що поєднують тексти з однієї і тієї ж тематичної області, незалежно написані на двох або декількох мовах.

І ті, й інші корпуси створюються і використовуються для порівняльних досліджень мов (в області лексикології, граматики, стилістики, перекладознавства і т.д.), а також з метою розробки ефективних методів перекладу, в тому числі, машинного.

При підготовці парал лельно корпусів текстів першого типу і розробці пакетів програм для їх обробки виникає проблема, яка полягає у встановленні відповідностей між текстом оригіналу і його перекладами [ 2 ]. Для вирішення цього завдання використовується так званий метод автоматичного ви равніванія (alignment) текстів. Суть цього методу полягає в паралельній сегмен тації оригінального тексту і його перекладу за пропозиціями, Клаузена (граматичним конструкціям), словосполученнями і словами. При вирівнюванні на рівні пропозицій можуть використовуватися, як це описано в підручнику А.В. Зубова і І.І. Зубової [ 17 ], шість можливих відповідностей між пропозиціями обох текстів.

1) одне вихідне пропозицію перекладається одним реченням;

2) два вихідних пропозиції переводяться одним пропози ням;

3) одне вихідне пропозицію перекладається двома пропозиціями;

4) два вихідних пропозиції переводяться двома пропозиції ми, але внутрішні кордони цих пропозицій у тексті оригіна ла і тексті перекладу не збігаються;

5) пропозиція вихідного тексту не перекладається;

6) пропозиція в тексті перекладу не має еквівалента в тек сте оригіналу.

Теоретично обгрунтованим при вирішенні даної проблеми може бути використання техноло гий систем машинного перекладу з мовою -посередником або універсальн вим мовою [ 2 ].

На практиці існують різні програми вирівнювання, які автоматично зіставляють тексти на основі збігу відносних довжин пропозицій, поділу тексту на абзаци, аналізу знаків пунктуації, зовнішнього словника та інших факторів. Найчастіше ці програми використовуються в людино- машинному варіанті, з постредагуванні результатів автоматичного вирівнювання.

Парал лельно корпуси текстів дозволяють отримати великий обсяг інформації. З їх допомогою можна:

• будувати двомовні і багатомовні перекладні словники;

• створювати та поповнювати словники для систем машинного перекладу;

• усувати полисемию лексичних одиниць шляхом використання комп'ютером контекстного оточення багатозначного слова, що перевищує по довжині пропозицію;

• переводити термінологічні та фразеологічні одиниці тексту;

• здійснювати повністю автоматичний переклад в рамках нових систем машинного перекладу, званих системами з перекладацькою пам'яттю, шляхом накопичення в пам'яті комп'ютера корпусів вихідних текстів та їх перекладів, вирівняних між собою на різних рівнях.

У процесі перекладу така система намагається відшукати перекладне пропозицію або його фрагмент в масиві вихідних паралельних текстів. Якщо воно знайдено у вихідному масиві текстів - оригіналів, то система вибирає переклад такої пропозиції або його частини в масиві перекладених текстів [ 17 ].

При дослідженні паралельних корпусів, в тому числі корпусів другого типу, можуть успішно застосовуватися інструменти автоматичної класифікації лексики. Автоматична класифікація лексики є однією з ключових процедур автоматичного розуміння текстів. Вона здійснюється в рамках формалізації структури тексту і кількісної оцінки семантичних зв'язків між елементами тексту (словами, представленими лемами і словоформами). Порівняльний аналіз количест ських даних про вживання слів, про ступінь їх семантичної близькості допомагає встановлювати розподіл лексичних одиниць різних мов всередині лексико- семантичних та тематичних груп. Інформація про співвідношення елементів кластерів, отримана при паралельній обробці текстів оригіналу і перекладу в паралельних корпусах другого типу, має високу цінність у визначенні адекватності перекладу і при проведенні контрастивної досліджень. Застосування модулів автоматичної класифікації лексики підвищує ефективність пошуку в паралельних корпусах, дозволяє витягувати дані для поповнення та коригування багатомовних словників, для перевірки якості роботи систем машинного перекладу та їх навчання

Система автоматичного перекладу тексту може бути заснована на розширених морфологічних союзах між двома мовами з використанням простих правил для вибору відповідних граматичних пар. Наприклад, в паралельному російсько- словацькому корпусі текстів зняття семантичної і морфологічної омонімії проводиться із застосуванням ланцюга Маркова першого або другого порядку, яка тренована на великому одномовному корпусі. Генетичні подібності між лексичними системами російського і словацької мов можна використовувати також для збільшення якості перекладу за допомогою схеми транслітерації відсутніх у словнику слів.

Системи перекладацької пам'яті можуть бути використані творчо для більшої автоматизації процесу перекладу, що не залежить від конкретних мов. Система машинного перекладу грунтується на застосуванні синтаксичного подібності між більш-менш спорідненими природними мовами. Зокрема, це стосується таких мов, як чеська і словацька.

Паралельні корпуси часто створюються на основі текстів, що використовуються в багатомовних спільнотах, таких як Організація Об'єднаних Націй, в країнах Європейського Союзу і в офіційно двомовних країнах, таких як Канада.

 

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.)