Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Вэб як корпус

Читайте также:

Інтэрнэт – вялікі даведнік, сусветная бібліятэка, сусветны архіў тэкставай інфармацыі.

Інфармацыйнае напаўненне сеткі Інтэрнэт (вэб-прасторы) можа разглядацца як вялікі шматмоўны корпус. Галоўны матэрыял лінгвістычнага аналізу любога корпуса -- гэта мова, зафіксаваная ў выглядзе пэўных тэкстаў. У інтэрнэце тэксты прадстаўлены ў вялікім аб’ёме і разнастайнасці, акрамя таго яны непасрэдна даступныя для машыннай апрацоўкі. Гэты факт прадстаўляе для лінгвістаў вялікую каштоўнасць, таму што перавод тэкстаў у машынную форму і стварэнне корпусаў патрабуе часавых і матэрыяльных выдаткаў.

Тэкставыя масівы інтэрнэта шырока выкарыстоўваюцца ў якасці крыніцы дадзеных для фарміравання корпусаў. Таксама тэксты, прадстаўленыя ў інтэрнэце, выкарыстоўваюцца ў якасці тэкставага матэрыялу для разнастайных праграм аналізу і апрацоўкі тэкставай інфармацыі.

У той жа час вэб-прастора можа выкарыстоўвацца непасрэдна як корпус. Зразумела, што ні адзін корпус тэкстаў нельга параўнаць па рэпрэзентатыўнасці моўнага матэрыялу з вэбам, куды ўключаюцца матэрыялы і іншых інэрнэт-рэсурсаў. Колькасць вэб-старонак увесь час павялічваецца. Пры гэтым узнікае пытанне аб сбалансаванасці вэб-корпуса. У корпус тэкстаў матэрыял звычайна адбіраецца. У вэб-корпусе такі адбор не праводзіцца, тут можна знайсці любыя тыпы тэкстаў, таму практычна немагчыма вызначыць сбалансаванасць дадзенага корпуса.

Пры выкарыстанні вэб-прасторы як корпуса ролю корпусных менеджараў выконваюць пошукавыя сістэмы. Існуе6 вялікая колькасць такіх сістэм, якія адрозніваюцца адна ад другой мовай запытаў, дызайнам, сервісам і іншымі асаблівасцямі. Да ліку такіх пошукавых сістэм вербальнага тыпу адносяцца наступныя: Coogle, Яндэкс (Яndex), Рамблер (Rambler), Апорт (Aport), AltaVista і інш.

У складзе любой пошукавай сістэмы можна выдзеліць тры асноўныя часткі:

1. Робат – падсістэма, якая забяспечвае прагляд (сканіраванне) Інтэрнэта і падтрымку інвертаванага файла (індэкснай базы дадзеных) у актуальным стане. Гэты праграмны комплекс з’яўляецца асноўным сродкам сбору інфармацыі аб наяўнасці і стане інфармацыйных рэсурсаў сеткі.

2. Пошукавая база дадзеных (гэта так называемы індэкс) – спецыяльным чынам арганізаваная структура дадзеных, якая ўключае перш за ўсё інвертаваны файл, які складаецца з лексічных адзінак, узятых з праіндаксаваных вэб-дакументаў і які ўтрымлівае разнастайную інфармацыю аб гэтых адзінках, а таксама аб саміх дакументах і сайтах у цэлым.

3. Пошукавая сістэма – падсістэма пошуку, якая забяспечвае апрацоўку запыту карыстальніка, пошук у базе дадзеных і выдачу вынікаў пошуку карыстальніку. Пошукавая сістэма мае зносіны з карыстальнікам праз карыстальніцкія інтэрфейсы – экранныя формы праграм-браўзераў: інтэрфейс запытаў і інтэрфейс прагляду вынікаў пошуку.

Індэксны файл (або індэкс) уяўляе сабой набор звязаных паміж сабой файлаў, арыентаваны на хуткі пошук дадзеных па запыту. Індэксы пошукавых сістэм гэта не што іншае, як віртуальныя канкардансы да тэкстаў. Выніку пошуку ў выглядзе кароткіх апісанняў дакументаў, як правіла ўтрымліваюць кантэксты, у якіх шукаемые словы сустрэліся ў знойдзеных дакументах. Адрозненне толькі ў тым, што канкардансы звычайна ствараюцца па канкрэтнаму твору або групе твораў, у той час як інфармацыйныя пошукавыя сістэмы інтэрнэта індэксуюць усю даступную колькасць электронных дакументаў.

Інтэрнэт можна разглядаць у якасці корпуса, аднак асноўныя рэжымы выкарыстання інтэрнэта як корпуса абмежаваны вывучэннем лексічнага матэрыяла. І ў гэтым накірунку магчымасці вельмі вялікія. Аднак, што датычыць граматычных даследаванняў на базе інтэрнэта, то без папярэдняй металігвістычнай разметкі яны зводзяцца да мінімума.

7. Лінгвістычныя задачы, якія вырашаюцца з дапамогай корпусных даследаванняў

Карыстальнікаў корпусаў, у першую чаргу лінгвістаў, цікавіць не змест канкрэтных тэкстаў, а іх метатэкставая інфармацыя і прыклады ўжывання тых або іншых моўных элементаў і канструкцый.

Першапачаткова лінгвістычныя даследаванні, якія праводзіліся з дапамогай корпусаў, зводзіліся да падліку частот ужывальнасці розных моўных элементаў. Корпусы служылі сродкам атрымання статыстычных дадзеных. Так, статыстычнымі метадамі на матэрыяле корпуса можна вызначыць, якія словы або канструкцыі рэгулярна сустракаюцца, а якія рэдка.

Корпусы з’яўляюцца багатай крыніцай дадзеных для даследаванняў па лексікаграфіі і граматыцы. Лексікаграфічныя даследаванні неабходны для складання слоўнікаў. На сённяшні дзень практычна ўсе сучасныя слоўнікі англійскай мовы ствараюцца на аснове вялікіх корпусаў, якія дазваляюць зрабіць слоўнік рэпрэзентатыўным.

Выкарыстоўваюцца корпусныя тэхналогіі і ў навучанні замежным мовам. Для таго, каб навучыць замежнай мове, неабходна ведаць колькасныя дадзеныя аб ёй: склад найбольш частотнай лексікі, верагоднасць ужывання той ці іншай канструкцыі. Корпусная лінгвістыка дае магчымасць абнавіць набор прыкладаў, якія выкарыстоўваюцца ў навучанні мове.

Лінгвісты-тэарэтыкі выкарыстоўваюць корпусы ў якасці эксперыментальнай базы для праверкі гіпотэз і даказацельства сваіх тэорый. Прыкладныя лінгвісты (выкладчыкі і перакладчыкі) выкарыстоўваюць корпусы тэкстаў пры навучанні мовам і для вырашэння сваіх прафесійных задач.

Корпусы даюць тры тыпы дадзеных, якія могуць быць выкарыстаны ў ходзе лінгвістычных даследаванняў:

1. Эмпірычная падтрымка.

Многія лінгвісты выкарыстоўваюць корпус у якасці “банка прыкладаў” г.зн. спрабуюць знайсці эмпірычную падтрымку для сваіх гіпотэз, над якімі яны працуюць. Корпусная лінгвістыка пры гэтым забяспечвае рэпрэзентатыўнасць і сбалансаванасць моўнага матэрыялу, а таксама пошукавы інструмент, які дае магчымасць правесці выбарку ў пэўным корпусе.

2. Інфармацыя аб частотнасці.

Корпусы забяспечваюць інфармацыю аб частотнасці выкарыстання слоў, фраз і канструкцый, якая можа быць выкарыстана для колькасных даследаванняў. Колькасныя даследаванні ў сваю чаргу выкарыстоўваюцца ў многіх сферах тэарэтычнай і камп’ютарнай лінгвістыкі. Яны паказваюць падабенства і адрозненні паміж рознымі тыпамі тэкстаў.

3. Экстралінгвістычная інфармацыя (метаінфармацыя).

Акрамя лінгвістычнага кантэксту, корпус прадстаўляе экстралінгвістычную інфармацыю або метаінфармацыю (жанр тэкста, звесткі пра аўтара і інш.).

1 | 2 | 3 | 4 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.397 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница