АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Класифікація корпусів за різними ознаками

Читайте также:
  1. Банківські операції, їх класифікація
  2. Банківські ресурси, їх види та класифікація
  3. Валюта, валютні цінності, класифікація валют.
  4. Види економічної інформації та її класифікація
  5. Види жорсткості та лужності води. Їх класифікація та визначення. Технічні параметри.
  6. Види та класифікація банків.Банківські групи
  7. Види та класифікація бухгалтерських документів з касового виконання бюджетів
  8. Види цін та їх класифікація
  9. Влада як соціальний феномен. Ресурси влади. Класифікація влади.
  10. Глава 11. Ведення Української класифікації товарів зовнішньоекономічної діяльності, її структура та класифікація товарів
  11. Душ, його медична характеристика та класифікація.
  12. Економічна діагностика: сутність, класифікація за ознаками

 

Незважаючи на різноманітність корпусів, можна виділити два основних способи їх розподілу на класи:

1) протиставлення корпусів, що відносяться до всього мови (часто до мови певного періоду), корпусам, що належать до якого-небудь под'язик (жанр, стиль, мову певної вікової чи соціальної групи, мова письменника або вченого і т.д.);

2) поділ корпусів за типом лінгвістичної розмітки. Незважаючи на наявність безлічі типів розмітки, більшість реально існуючих корпусів відноситься до корпусів морфологічного або синтаксичного типу (останні в англомовній літературі називають treebanks, що можна перекласти як «банки синтаксичних структур»). При цьому слід підкреслити, що корпус з синтаксичною розміткою явно або неявно включає в себе і морфологічні характеристики лексичних одиниць.

Взагалі існує велика кількість різних типів корпусів, що визначається різноманіттям дослідницьких і прикладних задач, для вирішення яких вони створюються, і різними підставами для класифікації. Залежно від поставлених цілей і классифицирующих ознак, можна виділити різні типи корпусів

Признак Типы корпусов
Тип языковых данных Письменные Устные Смешанные
«Параллельность» Одноязычные Двуязычные Многоязычные
«Литературность» Литературные Диалектные Разговорные Терминологические Смешанные
Цель Многоцелевые Специализированные
Жанр Литературные Фольклорные Драматургические Публицистические
Доступность Свободно доступные Коммерческие Закрытые
Назначение Исследовательские Иллюстративные
Динамичность Динамические (мониторные) Статические
Разметка Размеченные Неразмеченные
Характер разметки Морфологические Синтаксические Семантические Просодические и т.д.
Объем текстов Полнотекстовые «Фрагментнотекстовые»

 

Отже, за типом мовних даних корпуси діляться на письмові, усні та змішані. У письмових корпусах усне мовлення не представлена ​​(Браунівський корпус, LOB), в усних корпусах представлена ​​тільки усне мовлення, змішаними зазвичай бувають національні корпуси, що представляють побутування мови в певний період часу (НКРЯ, BNC та ін.)

За критерієм паралельності корпуси діляться на одномовні, двомовні і багатомовні. У одномовних корпусах протиставляються діалекти, варіанти мови. Наприклад, такі різновиди англійської мови, як англійська як рідну і англійську як іноземну залишалися за межами наукового інтересу до появи нових технологій, що дозволили залучити до контрастивний аналіз істотно більшу кількість зіставляються творів мови. Двомовні і багатомовні корпуси об'єднують тексти з однієї і тієї ж тематичної області, незалежно написані на двох або декількох мовах (наприклад, корпус матеріалів конференцій з певної наукової проблеми, що проходили в різних країнах і на різних мовах). Такі корпуси допомагають у роботі з термінологією і часто використовуються перекладачами. Ще один варіант двомовного або багатомовного корпусу - безліч тек стів - оригіналів, написаних на якому-небудь вихідному мовою, і текстів - перекладів цих вихідних текстів на один або декілька інших мов. Такий корпус надає неоціненний матеріал для проведення порівняй тельно - порівняльних досліджень, для досліджень з теорії перекладу і для навчання перекладу людини і комп'ютера.

За критерієм «літературності» виділяються літературні, діалектні, розмовні, термінологічні та змішані корпуси. Прикладом розмовного корпусу може бути корпус Один Речовий День (ОРД), що розробляється в Санкт -Петербурзі [ 38 ], прикладом термінологічного корпусу - корпус текстів по корпусних лінгвістиці, що дозволяє розробляти термінологічний словник безпосередньо на живому текстовому матеріалі [54]. В цьому корпусі методологія корпусної лінгвістики застосована до неї самої.

По меті створення корпуси діляться на багатоцільові і спеціалізовані. Багатоцільові корпуси зазвичай містять тексти різних жанрів (сюди відносяться національні корпуси), в той час як спеціалізовані корпуси можуть обмежуватися одним жанром або групою жанрів.

Корпуси текстів можуть бути класифіковані за жанрами і підрозділятися на літературні, фольклорні, драматургічні, публіцистичні та ін Прикладами публіцистичного корпусу можуть служити Комп'ютерний корпус текстів російських газет кінця ХХ - ого століття (http://www.philol.msu.ru/ ~ lex / corpus /) і корпус політичних метафор [ 2 ].

Важливим критерієм для користувачів корпусу є його доступність. Вільно доступні корпуси дозволяють у будь-який час в режимі on - line мати доступ до всіх текстам корпусу в повному обсязі. У ряді випадків вільний доступ може надаватися до частини корпусних даних. У роботі з комерційними корпусами потрібно купувати право його використання on - line або копію на компакт -диску. Попередньо можна ознайомитися з анотацією до корпусу чи, можливо, навіть попрацювати з корпусом в пробному режимі, але, як правило, не з усіма текстами, а тільки з невеликою за обсягом подкорпусом. Закриті корпуси створюються для вузько специфічних цілей і не призначені для публічного використання.

За призначенням виділяють дослідні та ілюстративні корпуси. Дослідницькі корпуси створюються з метою вивчення различ них аспектів функціонування мови. Цей тип корпусів орієнтований на широкий клас лінгвістичних завдань. Неспеціфіцірованность за дачі вимагає при побудові дослідних корпусів використовувати пропорційне звуження, яке є найбільш простим способом забезпечення репрезентативності. Як правило, такі кор пуси текстів містять від декількох десятків мільйонів до сотень мільйонів словоупо - требления. Ілюстративні корпуси створюються після проведення наукового дослідження: їх ціль не стільки виявити нові факти, скільки підтвердити і обгрунтувати вже отримані результати. Вони служать для виділення з них лінгво стических прикладів, що підтверджують ті чи інші мовні (ре чевие, текстові) факти, виявлені раніше іншими Лінгва стическими прийомами. Типовий приклад ілюстративного корпусу представлений в «Путівнику по дискурсів вим словами російської мови» [ 3 ], де семантичний аналіз частинок і виділені значення супроводжуються значним текстовим матеріалом, що дозволяє читачеві перевірити запропоновані семантичні інтерпретації [ 17; 2 ].

Критерій «динамічність» поділяє корпуси на динамічні і статичні. Спочатку корпуси текстів створювалися як статичні освіти, що відображають визна ленное временнóе стан мовної системи. Статичні корпуси містять тексти якогось невеликого вре меннóго проміжку [ 17 ]. Типовими представи телямі цього виду корпусів є авторські корпуси - колекції текстів письменників. Однак значна частина суто лінгвістичних і не тільки лінгвістичних завдань вимагає виявлення функціонування мовних феноменів на временнóй шкалою - наприклад, зміни значе ня слів, частоти використання тих чи інших синтаксичних конструк цій і т.д. Для відображення процесуального аспекту проблемної області була розроблена нова технологія побудови та експлуатації динами тичного корпусу текстів [ 2 ]. Динамічні корпуси називають також моніторними або моніторинговими. Мета моніторних корпусів - «складувати» постійно зростаючу кількість текстів у пам'яті комп'ютера. Протягом заздалегідь фіксованого проміжку време ні відбувається оновлення та / або доповнення безлічі текстів корпусу. Необмежені (постійно розвиваються) моніторні корпуси відіграють величезну роль в будові словника, оскільки дозволяють лексикографам стежити за новими словами, проникаючими в мову, або за вже існуючими словами, міняють своє значення, а також за балансом їх вживання у відповідності зі стилем. У динамічні корпуси текстів, як правило, включають письмові вико рел великого часового періоду. Вони призначені для проведення різних диахронических досліджень [ 17 ].

Критерій «розмітка» ділить корпуси на розмічені і нерозмічену. Існують і інші терміни, що позначають це поділ: індексовані і неіндексовані, анотовані і неаннотірованние, таггірование і нетаггірованние. У розміченому корпусі словами або пропозиціями присвоюються мітки (теги) відповідно з характером розмітки: морфологічні, синтаксичні, семантичні, просодические та ін

За критерієм «обсяг текстів» виділяють повнотекстові і так звані фрагментотекстовие корпуси. Як відомо, Браунівський корпус і корпус Ланкастер - Осло - Берген повинні були строго відповідати певним критеріям, одним з яких була довжина тексту, рівна 2000 слів (слововживань). Очевидно, що текстів, суворо відповідних таким критеріям, практично немає. Отже, ці корпуси є фрагментотекстовимі. До повнотекстових корпусам відносяться деякі корпуси текстів певного автора, а також корпуси коротких текстів, наприклад, корпус мерфізмов (так званих «законів підлості») [ 5 ] або корпус газетних заголовків

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)