Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Прыклад марфалагічнай разметкі

Читайте также:

<?xml version="1.0" encoding="windows-1251"?> <text> <p>

<s>

<w> Звонили <ana lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш," /></w>
<w> к <ana lemma="К" pos="ПРЕДЛ" gram="" /></w>
<w> вечерне
<ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," />
<ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w>
<pun>. </pun> </s>

<s><w >Торжественный <ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П" gram="мр,ед,им,вн," /></w>
<w> гул <ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w>
<w> колоколов
<ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," />
<ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w>
……………………..<pun>. </pun> </s></p></text>

Сінтаксічная разметка з’яўляецца вынікам сінтаксічнага аналізу, ці парсінга (англ. parsing), які выконваецца на аснове марфалагічнага аналізу. Гэты від разметкі апісвае сінтаксічныя сувязі паміж лексічнымі адзінкамі і разнастайнымі сінтаксічнымі канструкцыямі (напрыклад, даданы сказ, дзеяслоўнае словазлучэнне і да т.п.). У выніку работы праграм аўтаматычнага сінтаксічнага аналізу фіксуюцца сінтаксічныя сувязі паміж словамі і словазлучэннямі, а сінтаксічным адзінкам прыпісваюцца суадносныя характарыстыкі (тып сказа, сінтаксічная функцыя і да т.п.).

Сінтаксічная разметка ўключае:

n фіксацыю сінтаксічных сувязей

n прыпісванне сінтаксічным адзінкам адпаведных характарыстык (тып сказа, сінтаксічная функцыя, член сказа і інш.).

Парсінг (сінтаксічны аналіз) – гэта працэс супастаўлення лінейнай паслядоўнасці лексем (слоў, токенаў) мовы з із фармальнай граматыкай. Вынікам з’яўляецца “дерево зависимости” або сінтаксічнае дрэва.

Семантычная разметка абазначае семантычныя катэгорыі, да якіх адносіцца дадзенае слова ці словазлучэнне, і больш вузкія падкатэгорыі, якія вызначаюць спецыфіку яго значэння. Напрыклад, у назоўнікаў маюцца класы: “Расліны”, “Жывёлы”, у прыметнікаў “Якасці чалавека”, “Памер”, “Колер”.

Семантычная разметка ўключае:

- значэнне слоў;

- катэгарызацыю слоў (разрады);

- тэматычныя класы;

- разрашэнне аманіміі і сінаніміі;

- дэрывацыйныя характарыстыкі.

Семантычная разметка ў НКРЯ уключае 3 групы памет:

1. разрад (напрыклад, агульны, уласны для наз, зваротны, указальны для займ.)

2. лексіка-семантычныя характарыстыкі (тэматычныя класы лексем)

3. Дэрывацыйныя характарыстыкі (словаўтваральныя).

Анафарычная разметка фіксуе рэферэнцкія сувязі, напрыклад, займеннікавыя;

Прасадычная разметка. У прасадычных корпусах выкарыстоўваюць меткі, якія апісваюць націск і інтанацыю. У корпусах вуснага размоўнага маўлення прасадычная разметка часта суправаджаецца так званай дыскурснай разметкой, якая служыць для абазначэння паўз, паўтораў, агаворак, і г.д.

Існуюць і іншыя тыпы разметкі.

5.Спецыяльныя віды корпусаў тэкстаў

Спецыяльныя корпусы тэкстаў – гэта сбалансаваныя, звычайна невялікія па памеры (некалькі тысяч словаўжыванняў), падпарадкаваныя пэўнай даследчай задачы корпусы тэкстаў, якія прызначаны для выкарыстання пераважна ў мэтах, што адпавядаюць задуме іх складальніка.

Да спецыяльных відаў корпусаў адносяцца паралельныя корпусы, корпусы вуснага маўлення, гістарычныя і корпусы тых, хто навучаецца.

Асаблівым тыпам корпуса з’яўляецца паралельны корпус, у якім тэксту на адной мове супастаўлены яго пераклад на другой мове

Паралельныя корпусы можна падзяліць на 2 асноўныя тыпы:

1. Корпусы, якія прадстаўляюць вялікую колькасць тэкстаў-арыгіналаў, напісаных на якой-небудзь зыходнай мове, і тэкстаў-перакладаў гэтых зыходных тэкстаў на адну або некалькі іншых моў.

2. Корпусы, якія аб’ядноўваюць тэксты з адной і той жа тэматычнай галіны, напісаныя на дзвюх або некалькіх мовах.

І тыя, і другія корпусы ствараюцца і выкарыстоўваюцца для параўнальных даследаванняў моў у галіне лексікалогіі, граматыкі, стылістыкі і г.д., а таксама ў мэтах распрацоўкі эфектыўных метадаў перакладу, у тым ліку і машыннага.

Паралельныя корпусы тэкстаў дазваляюць атрымаць даволі вялікі аб’ём інфармацыі. З іх дапамогай можна:

1. Ствараць двухмоўныя і шматмоўныя перакладныя слоўнікі.

2. Ствараць і папаўняць слоўнікі машыннага перакладу.

3. Здымаць полісемію лексічных адзінак.

4. Перакладаць тэрміналагічныя і фразеалагічныя адзінкі тэкста.

5. Поўнасцю ажыццяўляць машынны пераклад у рамках новых сістэм машыннага перакладу, якія называюцца сістэмамі з перакладчыцкай памяццю.

У працэсе перакладу такая сістэма імкнецца адшукаць сказ, які перакладаецца, або яго фрагмент у масіве зыходных паралельных тэкстаў.

Паміж адзінкамі арыгінальнага і перакладнога тэкстаў з дапамогай спецыяльнай працэдуры ўстанаўліваецца адпаведнасць. Гэтая працэдура называецца выраўніваннем. А тэксты адпаведна выраўненымі.

Паралельны корпус ёсць у Нацыянальным корпусе рускай мовы. Тут прадстаўлены англа-рускі, руска-англ., нямецка-рус, рус.-ням., французска-рус., рус.-франц., іспанска-рус., рус.-ісп., бел.-рус, рус.-бел, польска-рус., руска-польскі, укр.-рус., рус.-укр., італьянска-рус., рус.-іт. і шматмоўны падкорпусы.

У Мінскім дзяржаўным лінгвістычным універсітэце створаны невялікія па аб’ёму паралельныя корпусы тэкстаў: руска-бел, англа-бел. і нямецка-бел.

Корпус вуснага маўлення – гэта корпус, створаны на аснове расшыфроўкі магнітафонных запісаў публічнага і асабістага маўлення.

Адным з першых корпусаў вуснага маўлення быў Лонданска-Лундскі корпус, які быў распрацаваны ў рамках праекта “Агляд ужывання англійскай мовы”. Мэта гэтага праекта заключалася ў тым, каб па магчымасці зафіксаваць асаблівасці граматычнай сістэмы англійскай мовы ў маўленні дарослага адукаванага носьбіта. Праект пачаў распрацоўвацца з 1960 года пад кіраўніцтвам Р.Квірка ў Лонданскім універсітэцкім каледжы. Аб’ём корпуса складаў 1 млн. словаўжыванняў. Тэксты вуснай мовы былі прадстаўлены запісамі радыёперадач, паседжанняў афіцыйных структур, а таксама нефармальных гутарак. Машынны варыянт корпуса ствараўся ў Лундскім універсітэце (Швецыя) і быў гатовы да выкарыстання ў 1979 годзе. Менавіта корпус вуснай мовы Лондан-Лунд быў адным з першых машынначытаемых корпусаў. Ён складаўся з 34 тэкстаў, што прадстаўлялі тайна запісаныя размовы, якія былі апублікаваны таксама ў кнізе Дж. Свартвіка і Р.Квірка “Корпус англійскай размовы” (1980). Гэтая кніга была шырока вядомая і карысная ў той час, калі камп’ютарныя корпусы не былі шырока распаўсюджаны. Лонданска-Лундскі корпус доўгі час заставаўся асноўнай крыніцай для камп’ютарнага даследавання размоўнай англійскай мовы. На падставе корпуса была падрыхтавана і выпушчана ў 1985 годзе поўная граматыка англійскай мовы.

Падкорпус вуснага маўлення існуе таксама ў Брытанскім нацыянальным корпусе. Але ён складае ўсяго 10 % усяго корпуса і ўключае ў сябе маўленне людзей розных узростаў, якія дабравольна згадзіліся ўдзельнічаць у праекце.

У складзе Нацыянальнага корпуса рускай мовы таксама ёсць падкорпус вуснага маўлення, які ўключае магнітафонныя запісы публічнага і асабістага маўлення. Ён падзяляецца на наступныя тыпы: публічнае маўленне (64,3 %), непублічнае маўленне (8,1 %) і мова кіно (27,6 %).

У якасці яшчэ аднаго прыклада корпуса вуснага маўлення можна разгледзець гукавы корпус, створаны ў інстытуце філалагічных даследаванняў факультэта філалогіі і мастацтва Санкт-Пецярбургскага дзяржаўнага ўніверсітэта – Один Речевой день. Гэта гукавы корпус сучаснай рускай мовы паўсядзённых зносін. Корпус ствараецца з мэтай вывучэння рэальнага жывога маўлення носьбітаў мовы ў натуральных умовах камунікацыі. І ў гэтым яго адрозненне ад іншых корпусаў вуснага маўлення, запісаных у лабараторыях і другіх спецыяльных умовах. Першая серыя гуказапісаў пачалася ў 2007 годзе. Для гэтага была атабрана група інфармантаў з 30 чалавек, якія прадстаўлялі розныя сацыяльныя і ўзроставыя катэгорыі насельніцтва Санкт-Пецярбурга. Інфарманты на працягу сутак запісвалі ўсе свае моўныя кантакты (з калегамі, сябрамі, знаёмымі і незнаёмымі людзьмі). Затым гэтыя запісы былі апрацаваны спецыялістамі. Так, аналіз лексікі паказаў, што самае часта ўжываемае слова – займеннік я, затым ідуць словы нет, вот, ну, да. Часта ўжываюцца такія формы і канструкцыі, як блин, типа, челюсть отвисла, крышняк едет, дать на лапу; лоховоз.

Гукавы корпус дазваляе вывучаць жывое паўсядзённае маўленне носьбітаў мовы ў розных камунікатыўных сітуацыях і на ўсіх лінгвістычных узроўнях. Па меры збору інфармацыя перадаецца ў вусны падкорпус НКРМ.

Невялікая колькасць корпусаў вуснага маўлення тлумачыцца цяжкасцю іх стварэння. Вуснае маўленне неабходна нейкім чынам зафіксаваць, напрыклад, з дапамогай магнітнай ленты або відэакасеты. Затым неабходна перадаць яго літарамі (затранскрыбіраваць), што з’яўляецца вельмі цяжкай працай.

Гістарычны корпус – гэта корпус, які ўключае тэксты, якія адлюстроўваюць розныя гістарычныя перыяды развіцця мовы.

Прыкладам гістарычнага корпуса можа служыць Санкт-Пецярбургскі Корпус агіяграфічных тэкстаў XVI –XVII ст. (СКАТ), даступны на сайце htt: // proiect.phil/pu.ru/ / skat. Агіяграфічныя тэксты – багаслоўскія тэксты (жыціі святых).

СКАТ – гэта электронны корпус тэкстаў па памятніках старажытнарускай агіяграфічнай літаратуры, створаны на кафедры матэматычнай лінгвістыкі філалагічнага факультэта Санкт-Пецярбургскага дзяржаўнага ўніверсітэта. Мова агіяграфічных твораў у многім абумовіла лёс і характар рускай літаратурнай мовы

XV-XVII cт. Адлюстраванне гэтай мовы з’яўляецца асноўнай задачай ствараемага корпуса тэкстаў рускіх жыцій таго часу. У 2006 годзе аб’ём гэтага корпуса складаў 500 тыс. словаўжыванняў.

Гістарычны падкорпус ёсць у складзе НКРЯ. Гэта корпус тэкстаў XV-XVII cт., аб’ём якога складае з млн. словаўжыванняў. У корпус увайшлі літаратурныя творы, летапісы, жыціі, дзелавыя граматы, бытавая перапіска.

Корпус тэкстаў, прызначаны для навучання (обучающий).

Прыкладам такога корпуса можа служыць Корпус англійскіх тэкстаў пецярбургскіх школьнікаў, створаны на кафедры прыкладной лінгвістыкі Расійскага гуманітарнага педагагічнага ўніверсітэта імя Герцэна. Асноўнай мэтай яго стварэння было даследаванне асаблівасцей англійскіх тэкстаў, якія ствараюць рускія школьнікі. Збор матэрылу для корпуса ажыццяўляўся ў школах Санкт-Пецярбурга ў рамках педагагічнай практыкі студэнтаў. У якасці інфарматараў (аўтараў тэкстаў) выступілі 78 навучэнцаў 9-11 класаў, якія вывучаюць англійскую мову. Тып гэтага корпуса змешаны. Ён уключае як вусныя тэксты (дыялогі, маналогі), так і пісьмовыя (сачыненні, эсэ). У выніку былі сабраны англійскія тэксты, якія выкарыстоўваюцца для навучання англійскай мове. Размер корпуса 38 тыс. словаўжыванняў. Гэта размечаны маніторны корпус, у якім выкарыстоўваецца сінтаксічная разметка і разметка памылак. Даследаванні на базе корпуса паказалі, што школьнікі аддаюць перавагу простым структурам і мадэлям стандартнай англійскай мовы, што прыводзіць да беднасці слоўніка носьбітаў мовы.

Спецыяльныя корпусы тэкстаў, нягледзячы на невялікі аб’ём, не менш запатрабаваны, чым нацыянальныя. Яны больш арыентаваны на філалогію, лексікаграфію і лінгвістыку.

1 | 2 | 3 | 4 |
Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.458 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница