Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Історія створення лінгвістичних корпусів

Читайте также:

Лінгвісти зібрали перші корпуси комп'ютеризованих текстів в 1960 -і роки. Перший комп'ютеризований корпус - Браунівський корпус (The Brown Corpus) - включає 500 текстів з американських книг, газет, журналів, вперше опублікованих у США в 1961 році. Кожен текст в Браунівському корпусі має довжину 2000 слів (мається на увазі слововживань - tokens), і все зібрання включає 1 млн. слів (500 текстів по 2000 слів у кожному). Автори корпусу У. Френсис (W. Francis) і Г. Кучера (H. Kucera) супроводили його великою кількістю матеріалів первинної статистичної обробки: частотним і алфавітно- частотним словником, різноманітними статистичними розподілами.

Мета створення Браунівського корпусу - забезпечити системне вивчення окремих жанрів письмової англійської мови і порівняння жанрів. Його поява викликала загальний інтерес і жваві дискусії. У першу чергу, вони торкнулися принципів відбору текстів і складу потенційно розв'язуваних на такому корпусі завдань. З одного боку, він будувався на основі статистичних процедур; з іншого боку, статистика застосовувалася у поєднанні з вольовими рішеннями авторів корпусу, що базуються на професійній інтуїції. Для досягнення максимальної об'єктивності цього складного процесу вимагалося побудова максимально формалізованих, прозорих для перевірки та контролю процедур [31].

Пізніше європейські дослідники склали корпус текстів, вперше опублікованих у Великобританії в 1961 році, слідуючи тим же принципам: 15 жанрів (регістрів), 500 текстів по 2000 слів (слововживань). Він включав 1 млн. слів британського варіанту англійської мови, і його назвали корпусом Ланкастер - Осло - Берген (The Lancaster - Oslo - Bergen Corpus, за назвами британського і двох норвезьких університетів, або коротко LOB). Збалансовані корпуси типу Браунівського дуже важливі для дослідників, чиї інтереси лежать в галузі лінгвістики і які хочуть використовувати корпус в цілях лінгвістичного опису та аналізу.

Отже, два самих ранніх великих корпусу - це корпуси письмовій промови американського і британського варіантів англійської мови. Обидва корпуси залишаються корисними і зараз, на них грунтуються численні дослідження англійської мови.

За десятиліття, що минули з моменту створення цих корпусів, комп'ютери стали дешевше і набагато могутніше, крім того, недорогі й надійні сканери зробили необов'язковим набір текстів на комп'ютері за допомогою клавіатури. Ці винаходи полегшили процес створення корпусів, і останні з них містять вже мільярди слів (слововживань).

До 1990 року вже було зафіксовано більше 600 комп'ютерних корпусів. По роках складання вони були розподілені приблизно наступним чином [ 44 ]:

-1965 10 1966-1970 20

1971-1975 30 1976-1980 80

1981-1985 160 1986-1990 320

Очевидно, що в наступні роки кількість і різноманіття створюваних корпусів йшли по наростаючій.

Серед сучасних корпусів англійської мови (як британського, так і американського варіанту) найбільш відомі Британський національний корпус (British National Corpus - BNC), Міжнародний корпус англійської мови (International Corpus of English - ICE), лінгвістичний Банк англійської мови (Bank of English), корпус сучасного американського англійського (Corpus of Contemporary American English - COCA) та ін В даний час корпуси створені для багатьох мов світу (див. Додаток 1).

У першій половині 1990 -х років корпусні лінгвістика остаточно сформувалася як окремий напрямок науки про мову. «Корпусні лінгвістика досягла зрілості» - так Я. Свартвік озаглавив в 1992 році передмову до матеріалів першого Нобелівського симпозіуму з корпусних лінгвістиці [60]. Корпусні лінгвістика тісно взаємодіє з комп'ютерною лінгвістикою, використовуючи її досягнення і, в свою чергу, збагачуючи її.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.77 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница