|
|||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Класифікація корпусів за різними ознаками
Незважаючи на різноманітність корпусів, можна виділити два основних способи їх розподілу на класи: 1) протиставлення корпусів, що відносяться до всього мови (часто до мови певного періоду), корпусам, що належать до якого-небудь под'язик (жанр, стиль, мову певної вікової чи соціальної групи, мова письменника або вченого і т.д.); 2) поділ корпусів за типом лінгвістичної розмітки. Незважаючи на наявність безлічі типів розмітки, більшість реально існуючих корпусів відноситься до корпусів морфологічного або синтаксичного типу (останні в англомовній літературі називають treebanks, що можна перекласти як «банки синтаксичних структур»). При цьому слід підкреслити, що корпус з синтаксичною розміткою явно або неявно включає в себе і морфологічні характеристики лексичних одиниць. Взагалі існує велика кількість різних типів корпусів, що визначається різноманіттям дослідницьких і прикладних задач, для вирішення яких вони створюються, і різними підставами для класифікації. Залежно від поставлених цілей і классифицирующих ознак, можна виділити різні типи корпусів
Отже, за типом мовних даних корпуси діляться на письмові, усні та змішані. У письмових корпусах усне мовлення не представлена (Браунівський корпус, LOB), в усних корпусах представлена тільки усне мовлення, змішаними зазвичай бувають національні корпуси, що представляють побутування мови в певний період часу (НКРЯ, BNC та ін.) За критерієм паралельності корпуси діляться на одномовні, двомовні і багатомовні. У одномовних корпусах протиставляються діалекти, варіанти мови. Наприклад, такі різновиди англійської мови, як англійська як рідну і англійську як іноземну залишалися за межами наукового інтересу до появи нових технологій, що дозволили залучити до контрастивний аналіз істотно більшу кількість зіставляються творів мови. Двомовні і багатомовні корпуси об'єднують тексти з однієї і тієї ж тематичної області, незалежно написані на двох або декількох мовах (наприклад, корпус матеріалів конференцій з певної наукової проблеми, що проходили в різних країнах і на різних мовах). Такі корпуси допомагають у роботі з термінологією і часто використовуються перекладачами. Ще один варіант двомовного або багатомовного корпусу - безліч тек стів - оригіналів, написаних на якому-небудь вихідному мовою, і текстів - перекладів цих вихідних текстів на один або декілька інших мов. Такий корпус надає неоціненний матеріал для проведення порівняй тельно - порівняльних досліджень, для досліджень з теорії перекладу і для навчання перекладу людини і комп'ютера. За критерієм «літературності» виділяються літературні, діалектні, розмовні, термінологічні та змішані корпуси. Прикладом розмовного корпусу може бути корпус Один Речовий День (ОРД), що розробляється в Санкт -Петербурзі [ 38 ], прикладом термінологічного корпусу - корпус текстів по корпусних лінгвістиці, що дозволяє розробляти термінологічний словник безпосередньо на живому текстовому матеріалі [54]. В цьому корпусі методологія корпусної лінгвістики застосована до неї самої. По меті створення корпуси діляться на багатоцільові і спеціалізовані. Багатоцільові корпуси зазвичай містять тексти різних жанрів (сюди відносяться національні корпуси), в той час як спеціалізовані корпуси можуть обмежуватися одним жанром або групою жанрів. Корпуси текстів можуть бути класифіковані за жанрами і підрозділятися на літературні, фольклорні, драматургічні, публіцистичні та ін Прикладами публіцистичного корпусу можуть служити Комп'ютерний корпус текстів російських газет кінця ХХ - ого століття (http://www.philol.msu.ru/ ~ lex / corpus /) і корпус політичних метафор [ 2 ]. Важливим критерієм для користувачів корпусу є його доступність. Вільно доступні корпуси дозволяють у будь-який час в режимі on - line мати доступ до всіх текстам корпусу в повному обсязі. У ряді випадків вільний доступ може надаватися до частини корпусних даних. У роботі з комерційними корпусами потрібно купувати право його використання on - line або копію на компакт -диску. Попередньо можна ознайомитися з анотацією до корпусу чи, можливо, навіть попрацювати з корпусом в пробному режимі, але, як правило, не з усіма текстами, а тільки з невеликою за обсягом подкорпусом. Закриті корпуси створюються для вузько специфічних цілей і не призначені для публічного використання. За призначенням виділяють дослідні та ілюстративні корпуси. Дослідницькі корпуси створюються з метою вивчення различ них аспектів функціонування мови. Цей тип корпусів орієнтований на широкий клас лінгвістичних завдань. Неспеціфіцірованность за дачі вимагає при побудові дослідних корпусів використовувати пропорційне звуження, яке є найбільш простим способом забезпечення репрезентативності. Як правило, такі кор пуси текстів містять від декількох десятків мільйонів до сотень мільйонів словоупо - требления. Ілюстративні корпуси створюються після проведення наукового дослідження: їх ціль не стільки виявити нові факти, скільки підтвердити і обгрунтувати вже отримані результати. Вони служать для виділення з них лінгво стических прикладів, що підтверджують ті чи інші мовні (ре чевие, текстові) факти, виявлені раніше іншими Лінгва стическими прийомами. Типовий приклад ілюстративного корпусу представлений в «Путівнику по дискурсів вим словами російської мови» [ 3 ], де семантичний аналіз частинок і виділені значення супроводжуються значним текстовим матеріалом, що дозволяє читачеві перевірити запропоновані семантичні інтерпретації [ 17; 2 ]. Критерій «динамічність» поділяє корпуси на динамічні і статичні. Спочатку корпуси текстів створювалися як статичні освіти, що відображають визна ленное временнóе стан мовної системи. Статичні корпуси містять тексти якогось невеликого вре меннóго проміжку [ 17 ]. Типовими представи телямі цього виду корпусів є авторські корпуси - колекції текстів письменників. Однак значна частина суто лінгвістичних і не тільки лінгвістичних завдань вимагає виявлення функціонування мовних феноменів на временнóй шкалою - наприклад, зміни значе ня слів, частоти використання тих чи інших синтаксичних конструк цій і т.д. Для відображення процесуального аспекту проблемної області була розроблена нова технологія побудови та експлуатації динами тичного корпусу текстів [ 2 ]. Динамічні корпуси називають також моніторними або моніторинговими. Мета моніторних корпусів - «складувати» постійно зростаючу кількість текстів у пам'яті комп'ютера. Протягом заздалегідь фіксованого проміжку време ні відбувається оновлення та / або доповнення безлічі текстів корпусу. Необмежені (постійно розвиваються) моніторні корпуси відіграють величезну роль в будові словника, оскільки дозволяють лексикографам стежити за новими словами, проникаючими в мову, або за вже існуючими словами, міняють своє значення, а також за балансом їх вживання у відповідності зі стилем. У динамічні корпуси текстів, як правило, включають письмові вико рел великого часового періоду. Вони призначені для проведення різних диахронических досліджень [ 17 ]. Критерій «розмітка» ділить корпуси на розмічені і нерозмічену. Існують і інші терміни, що позначають це поділ: індексовані і неіндексовані, анотовані і неаннотірованние, таггірование і нетаггірованние. У розміченому корпусі словами або пропозиціями присвоюються мітки (теги) відповідно з характером розмітки: морфологічні, синтаксичні, семантичні, просодические та ін За критерієм «обсяг текстів» виділяють повнотекстові і так звані фрагментотекстовие корпуси. Як відомо, Браунівський корпус і корпус Ланкастер - Осло - Берген повинні були строго відповідати певним критеріям, одним з яких була довжина тексту, рівна 2000 слів (слововживань). Очевидно, що текстів, суворо відповідних таким критеріям, практично немає. Отже, ці корпуси є фрагментотекстовимі. До повнотекстових корпусам відносяться деякі корпуси текстів певного автора, а також корпуси коротких текстів, наприклад, корпус мерфізмов (так званих «законів підлості») [ 5 ] або корпус газетних заголовків
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |