Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Структура корпуса

Читайте также:

Тэрмін «корпус» звычайна абазначае збор тэкстаў канечнага фіксаванага памеру, які існуе ў электронным выглядзе.

У паняцце «корпус тэкстаў» таксама ўваходзіць сістэма кіравання тэкставымі і лінгвістычнымі дадзенымі, якую называюць корпусным менеджарам (ці корпус-менеджарам) (англ. corpus manager). Гэта спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.

Корпусны менеджар – гэта своеасаблівая аперацыйная абалонка лінгвістычнага корпуса, якая ўяўляе сабой цэлы рад магчымасцей для даследавання мовы.

Пошук у корпусе дадзеных дазваляе па любым слове пабудаваць канкарданс – спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу.

Канкардансер – гэта спецыяльная праграма, якая дазваляе аналізаваць вялікія масівы тэкста на прадмет пошуку заканамернасцей выкарыстання слоў і выразаў у мове.

Канкандансер ажыццяўляе пошук зададзенага слова ў корпусе і выдае ў новым акне некалькі фрагментаў сказаў з розных тэкстаў, у якіх выкарыстоўваецца дадзенае слова ці выраз.

2.Корпусная лінгвістыка ў дынамічным аспекце

Першыя лінгвістычныя корпусы тэкстаў з’явіліся ў 60-я гады ХХ ст.

У 1963 г. у Браўнаўскім універсітэце (ЗША) упершыню быў створаны вялікі корпус тэкстаў на машынным носьбіце Браўнаўскі корпус (Brown Corpus). Аўтары корпуса У. Фрэнсіс (W. Francis) і Г. Кучэра (H. Kucera) спраектавалі яго як набор празаічных друкаваных тэкстаў амерыканскага варыянта англійскай мовы (усяго такіх тэкстаў 500, аб’ём кожнага 2000 слоў). Тэксты належалі да пятнаццаці найбольш масавых жанраў англамоўнай друкаванай прозы ЗША. Слова корпус было ў жыта ў значэнні ‘сукупнасць тэкстаў, якая можа лічыцца прадстаўнічай для дадзенай мовы, дыялекту ці іншага падмноства мовы, прызначаная для лінгвістычнага аналізу’.

Браўнаўскі корпус суправаджаўся не толькі пашыраным апісаннем, але і вялікай колькасцю матэрыялаў яго першаснай статыстычнай апрацоўкі – частотны і алфавітна-частотны слоўнік, разнастайныя статыстычныя дадзеныя.

Аўтары корпуса У.Фрэнсіс і Г.Кучэра ставілі за мэту прадставіць корпус тэкстаў, якія адпавядаюць ясным і выразным крытэрыям адбору:

1. Паходжанне і склад тэксту (аўтар павінен быць народжаным носьбітам амерыканскага варыянта англійскай мовы, дыялог павінен займаць менш за палову аб’ёма тэксту);

2. Сінхранізацыя (уключаны тэксты ўпершыню выдадзеныя ў 1961 годзе);

3. Прадуманыя суадносіны колькаснай прадстаўленасці розных жанраў і адбор асобных тэкстаў;

4. Даступнасць для камп’ютарнай апрацоўкі.

Мэта стварэння Браўнаўскага корпуса – забяспечыць сістэмнае вывучэнне асобных жанраў пісьмовай англійскай мовы. З’яўленне Браўнаўскага корпуса выклікала агульную зацікаўленасць і гарачыя дыскусіі. Перш за ўсё яны закранулі прынцыпы адбору тэкстаў і шэраг задач, якія патэнцыяльна вырашаюцца з дапамогай такога корпуса.

Неўзабаве з’явіўся брытанскі аналаг Браўнаўскага корпуса Ланкастэрскі корпус (Ланкастэрска-Осла-Бергенскі) англійскай мовы (Lancaster-Oslo-Bergen Corpus, LOB), названы, як і Браўнаўскі, паводле месца яго стварэння. Корпус уключаў 1 млн. слоў брытанскага варыянта англійскай мовы (500 тэкстаў па 2000 слоў). Яго складальнікі амаль дакладна прытрымліваліся прынцыпаў, на якіх грунтаваўся Браўнаўскі корпус.

Браўнаўскі і Ланкастэрскі – гэта два самыя раннія вялікія корпусы амерыканскага і брытанскага варыянтаў англійскай мовы, якімі карыстаюцца і зараз шматлікія даследчыкі англійскай мовы.

У першай палове 90-х гадоў ХХ ст. корпусная лінгвістыка канчаткова сфарміравалася як асобны накірунак навукі аб мове.

Сярод сучасных корпусаў англійскай мовы найбольш вядомы Брытанскі нацыянальны корпус (British National Corpus, BNC, адрас: www.sara.natcorp.ox.ac.uk), які з’яўляецца ўзорам нацыянальнага моўнага корпуса. Агульны аб’ём корпуса 100 млн словаўжыванняў. Ён складаецца з падкорпуса пісьмовай англійскай мовы і падкорпуса размоўнай англійскай мовы. Корпус складаецца толькі са слоў сучаснай англійскай мовы, таму адлюстроўвае стан англійскай мовы (яе брытанскага варыянта) 2-ой паловы XX ст. Распрацаваны ён быў у Оксфардскім універсітэце пры ўдзеле Ланкастэрскага ўніверсітэта і Брытанскай бібліятэкі. Праца над стварэннем корпуса працягвалася з 1991 па 1994 год.

Падкорпус, які прадстаўляе пісьмовую англійскую мову, складае 90 % усяго корпуса і ўключае ў сябе газеты, часопісы, перыядычныя навуковыя выданні для розных узростаў, папулярную навуковую фантастыку, мастацкую літаратуру, школьныя сачыненні і інш. Тэксты, прадстаўленыя тут адбіраліся па трох асноўных крытэрыях: час напісання, галіна, якую гэты тэкст апісвае і тып выдання. Па часе ўсе тэксты належаць прыкладна да аднаго перыяду, пачынаючы з 1975 года. 75 % тэкстаў былі ўзяты з інфармацыйных выданняў (навука, мастацтва, фінансы, сацыялогія, камерцыя і інш.). 25 % тэкстаў належыць да галіны забаўляльнай літаратуры.

Падкорпус вуснай мовы складае 10 % ўсяго корпуса і ўключае ў сябе маўленне людзей розных узростаў, якія дабравольна згадзіліся ўдзельнічаць у праекце (усяго было задзейнічана 124 дабравольцы, якія насілі з сабой дыктафоны, на якія запісвалася іх размовы). Яны пражываюць у розных рэгіёнах Велікабрытаніі і належаць да розных сацыяльных класаў. Дабравольцы былі атабраны так, што сярод іх была прыкладна роўная колькасць мужчын і жанчын розных узроставых і сацыяльных груп. Магнітныя запісы былі апрацаваны, а тэксты запісаны звычайнай англійскай арфаграфіяй. Гэтыя тэксты зараз выкарыстоўваюцца як аснова вывучэння характару вуснага маўлення.

Апошняя на сённяшні дзень рэдакцыя Брытанскага нацыянальнага корпуса выйшла ў свет у 2007 г. 90% тэкставай базы корпуса складаюць узоры літаратурнай пісьмовай мовы, 10% – транскрыпты гутарковага маўлення.

Сярод мноства праектаў амерыканскіх корпусаў адзіным праектам з адкрытым доступам да базы дадзеных з’яўляецца Корпус сучаснай амерыканскай англійскай мовы (Corpus of Contemporary American English, COCA, адрес: www.americancorpus.org), агульны аб’ём якога 410 млн словаўжыванняў са 160 тыс. тэкстаў. Стваральнікам корпуса з’яўляецца Марк Дэйвіс (Mark Davies), прафесар корпуснай лінгвістыкі Універсітэта Брыгама Янга. Апошняе абнаўленне корпуса праводзілася летам 2010 г. 85 млн. токенаў складаюць транскрыпты вуснага маўлення, узятыя з электронных мас-медыа; 81 млн. – мастацкая літаратура; 86 млн. – папулярныя часопісы; 81 млн. – газеты і 81 млн. – акадэмічныя выданні.

Адным з найбольш вядомых корпусаў славянскіх моў з’яўляецца Чэшскі нацыянальны корпус (ЧНК). Гэта сінхранічны марфалагічна размечаны корпус сучаснай чэшскай мовы. Стварэннем корпуса займаецца Інстытут Чэшскай нацыянальнай мовы пад кіраўніцтвам прафесара М. Чэрмака. Інстытут быў створаны на базе філасофскага факультэта Карлава ўніверсітэта ў Празе ў 1994 годзе. Масіў тэкстаў на чэшскай мове, назапашаны ў корпусе, дзеліцца на сінхранічную і дыяхранічную часткі. Сінхранічная частка ў сваю чаргу складаецца з пісьмовых тэкстаў (больш за 100 млн. словаўжыванняў), размоўных тэкстаў (750 тыс. словаўжыванняў) і дыялектная мова. Аб’ём дыяхранічнай часткі – 1750 словаўжыванняў. Наяўнасць сінхранічнага і дыяхранічнага корпуса дазваляе прасачыць змяненне семантыкі слова. Акрамя таго, як асобны фонд ствараецца Пражскі размоўны корпус.

Пры фарміраванні ЧНК вялікая ўвага ўдзялялася пытанню рэпрэзентатыўнасці корпуса. Было прынята рашэнне, што асноўную частку корпуса складуць тэксты 1990-2000 гадоў з дадатковай рэтраспектывай, уяўляючай сабой творы чэшскай літаратуры да 1950 года. Жанравая і тэматычная структура корпуса выглядае наступным чынам: 85 % складаюць інфармацыйныя тэксты, з іх 60 % публіцыстычныя і 25 % навуковыя. І толькі 15 % складаюць мастацкія тэксты.

У Германіі з’яўленне Браўнаўскага корпуса дало штуршок распрацоўцы LIMAS-корпуса, які складаецца з 500 падкорпусаў па 2000 словаўжыванняў кожны. У аснову жанравай класіфікацыі LIMAS-корпуса пакладзена іэматычная класіфікацыя прадметных галін (усяго іх 33), найбольш значныя: рэлігія, культура, палітыка, эканоміка, літаратура, мастацтва і інш. LIMAS-корпус лічыцца самым прадстаўнічым для сучаснай нямецкай мовы.

Самай поўнай крыніцай для вывучэння рускай мовы сёння з’яўляецца Нацыянальны корпус рускай мовы (адрас: www.ruscorpora.ru) – 500 млн словаўжыванняў. Ён размешчаны ў сетцы Інтэрнэт з 2004 года і разлічаны на тых, хто займаецца лінгвістычнымі даследаваннямі, вывучае або выкладае рускую мову. Непасрэдная праца па стварэнню гэтага корпуса пачалася ў 2000 годзе, а ў красавіку 2004 года ён быў размешчаны ў інтэрнэце.

3. Тыпалогія лінгвістычных корпусаў

Нягледзячы на разнастайнасць корпусаў тэкстаў, можна выдзеліць два асноўныя спосабы дзялення іх на класы:

1) гэта супрацьпастаўленне корпусаў, якія адносяцца да ўсёй мовы (часта да мовы пэўнага перыяда), корпусам, якія адносяцца да якой-небудзь падмовы (жанр, стыль, мова пэўнай узроставай ці сацыяльнай групы, мова пісьменніка ці вучонага і да т.п.);

2) падзел корпусаў па тыпу лінгвістычнай разметкі. Нягледзячы на наяўнасць розных тыпаў разметкі, большасць рэальна існуючых корпусаў адносяцца да корпусаў марфалагічнага або сінтаксічнага тыпу (апошнія ў англамоўнай літаратуры называюць treebanks, што можна перакласці як «банкі сінтаксічных структур»). Пры гэтым трэба адзначыць, што корпус з сінтаксічнай разметкай наяўна ці не ўключае ў сябе і марфалагічныя характарыстыкі лексічных адзінак.

Увогуле існуе вялікая колькасць розных тыпаў корпусаў. Іх разнастайнасць абумоўлена шматаспектнасцю даследчых і прыкладных задач, для рашэння якіх яны ствараюцца, і рознымі крытэрыямі класіфікацыі. У залежнасці ад пастаўленых мэт і класіфікацыйных прыкмет, можна вызначыць розныя тыпы корпусаў (гл. табліцу).

Класіфікацыя корпусаў

Прыкмета	Тыпы корпусаў
Тып моўных дадзеных	Пісьмовыя Вусныя Змешаныя
Мова тэкстаў	Англійская Руская Чэшская і г.д.
«Паралельнасць»	Аднамоўныя Двухмоўныя Шматмоўныя
«Літаратурнасць», спецыфічнасць	Літаратурныя Дыялектныя Размоўныя Тэрміналагічныя Змешаныя
Мэта стварэння	Шматмэтавыя спецыялізаваныя
Жанр	Мастацкія Фальклорныя Драматычныя Публіцыстычныя
Даступнасць	Свабодна даступныя Камерцыйныя Закрытыя
Прызначэнне	Даследчыя Ілюстрацыйныя
Дынамічнасць	Дынамічныя (маніторныя) Статычныя
Разметка	Размечаныя Неразмечаныя
Характар разметкі	Марфалагічныя Сінтаксічныя Семантычныя Прасадычныя і да т.д.
Аб’ём тэкстаў	Поўнатэкставыя «Фрагментнатэкставыя»
Храналагічны аспект	Сінхранічныя Дыяхранічныя
«Супольнасць»	Агульныя Аднаго пісьменніка
Структура	Цэнтральныя і архіўныя Ядзерныя і перыферыйныя

Па тыпу моўных дадзеных корпусы дзеляцца на пісьмовыя, вусныя і змешаныя. У пісьмовых корпусах вусная мова не прадстаўлена (напрыклад, Браўнаўскі корпус), у вусных корпусах прадстаўлена толькі вуснае маўленне, змешанымі звычайна з’яўляюцца нацыянальныя корпусы, якія прадстаўляюць мову ў пэўны перыяд часу (НКРЯ, BNC).

Па крытэрыюмова тэкстаў корпусы дзеляцца на англійскія, чэшскія, рускія, беларускія і г.д.

Па крытэрыю паралельнасці корпусы дзеляцца на аднамоўныя, двухмоўныя і шматмоўныя. У аднамоўных корпусах супастаўляюцца дыялекты, варыянты адной мовы. Напрыклад, такія разнавіднасці англійскай мовы, як брытанскі і амерыканскі варыянт. Двухмоўныя і шматмоўныя корпусы аб’ядноўваюць тэксты з адной і той жа тэматычнай галіны, напісаныя на адной або некалькі мовах. Такія корпусы дапамагаюць у працы з тэрміналогіяй і часта выкарыстоўваюцца перакладчыкамі. Двухмоўныя або шматмоўныя корпусы могуць уяўляць сабой вялікую колькасць тэкстаў-арыгіналаў і тэкстаў-перакладаў гэтых зыходных тэкстаў. Такі корпус уяўляе сабой карысны матэрыял для правядзення параўнальна-супастаўляльных даследаванняў.

Па крытэрыю літаратурнасці (спецыфічнасці) выдзяляюцца літаратурныя, дыялектныя, размоўныя, тэрміналагічныя і змешаныя корпусы.

Прыкладам размоўнага корпуса можа служыць корпус Один Речевой День, які распрацоўваецца ў Санкт-Пецярбурзе. Прыкладам тэрміналагічнага корпуса можа быць корпус тэкстаў па корпуснай лінгвістыцы, на базе якога распрацоўваецца тэрміналагічны слоўнік непасрэдна на жывым тэкставым матэрыяле.

Па мэце стварэння корпусы дзеляцца на шматмэтавыя і спецыялізаваныя. Шматмэтавыя корпусы уключаюць тэксты розных жанраў, (напрыклад, нацыянальныя корпусы), а спецыялізаваныя могуць абмяжоўвацца адным жанрам ці групай жанраў.

Корпусы тэкстаў класіфікуюцца таксама па жанрам і падзяляюцца на літаратурныя, фальклорныя, публіцыстычныя і інш. Прыкладам публіцыстычнага корпуса можа служыць Камп’ютарны корпус рускіх газет канца ХХ ст.

Важным крытэрыям для карыстальніка корпуса з’яўляецца яго даступнасць. Адпаведна выдзяляюць свабоднадаступныя, закрытыя і камерцыйныя корпусы. Свабоднадаступныя корпусы дазваляюць у любы час у рэжыме on-line мець доступ да ўсіх тэкстаў корпуса ў поўным аб’ёме. У некаторых выпадках свабодны доступ можа прадстаўляцца толькі да часткі корпусных дадзеных. У рабоце з камерцыйнымі корпусамі трэба купляць права іх выкарыстання on-line або копію на кампакт-дыску. Перад гэтым можна азнаёміцца з анатацыяй да корпуса, папрацаваць з корпусам у пробным рэжыме, але, як правіла, не з усімі тэкстамі, а толькі з невялікім па аб’ёме падкорпусам. Закрытыя корпусы ствараюцца для вузка спецыфічных мэт і не прызначаны для публічнага выкарыстання.

Па прызначэнню выдзяляюць даследчыя і ілюстрацыйныя корпусы. Даследчыя корпусы ствараюцца з мэтай вывучэння розных аспектаў функцыянавання мовы. Гэты тып корпусаў арыентаваны на шырокі клас лінгвістычных задач. Ілюстрацыйныя корпусы ствараюцца пасля правядзення навуковага даследавання: іх мэта не столькі выявіць новыя факты, колькі пацвердзіць і абгрунтаваць ужо атрыманыя вынікі. Яны служаць для выдзялення з іх лінгвістычных прыкладаў. Якія пацвярджаюць тыя або іншыя моўныя факты.

Крытэрый дынамічнасць падраздзяляе корпусы на дынамічныя і статычныя. Першапачаткова корпусы тэкстаў ствараліся як статычныя. Яны адлюстроўвалі пэўны часавы стан моўнай сістэмы. Статычныя корпусы ўтрымліваюць тэксты нейкага невялікага часавага прамежку. Тыповымі прадстаўнікамі гэтага віду корпусаў з’яўляюцца аўтарскія корпусы – збор тэкстаў пісьменнікаў. Але значная колькасць чыста лінгвістычных і не толькі лінгвістычных задач патрабуе выяўлення моўных феноменаў на часавай шкале. Напрыклад, змены значэння слоў, частаты выкарыстання тых або іншых канструкцый. Для гэтага патрэбны дынамічныя корпусы тэкстаў. Дынамічныя корпусы называюць таксама маніторнымі ці маніторынгавымі. Іх асноўная мэта – збіраць (складзіраваць) тэксты ў памяці камп’ютара. Гэта значыць, што праз пэўны прамежак часу павінна ажыццяўляцца абнаўленне або дапаўненне корпуса тэкстаў. Корпусы, якія пастаянна папаўняюцца, дазваляюць лексікографам сачыць за новымі словамі, якія з’яўляюцца ў мове, або за ўжо існуючымі словамі, якія мяняюць сваё значэнне. Дынамічныя корпусы тэкстаў выкарыстоўваюцца для правядзення розных дыяхранічных даследаванняў.

Па крытэрыю разметка корпусы дзеляцца на размечаныя і неразмечаныя. У размечаным корпусе словам або сказам прысвайваюцца меткі або тэгі ў залежнасці ад характару разметкі корпусы падзяляюцца на марфалагічныя, сінтаксічныя, семантычныя, прасадычныя і інш.

Па крытэрыю аб’ём тэкстаў выдзяляюць поўнатэкставыя і фрагментнатэкставыя корпусы. Напрыклад, Браўнаўскі і Ланкастэрскі корпусы павінны былі дакладна адпавядаць пэўным крытэрыям, адным з якіх была даўжыня тэкста, роўная 2000 слоў. Але не ўсе тэксты могуць дакладна адпавядаць такім крытэрыям. Значыць, гэтыя корпусы з’яўляюцца фрагментатэкставымі. Да поўнатэкставых адносяцца некаторыя корпусы тэкстаў пэўнага аўтара.

Паводле храналагічнага крытэрыя корпусы дзеляцца на сінхранічныя і дыяхранічныя. Сінхранічныя адлюстроўваюць мову на пэўным этапе развіцця, дыяхранічныя – у розныя перыяды.

1 | 2 | 3 | 4 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.064 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница