|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Корпусна лінгвістика
Корпусна лінгвістика є галуззю прикладного мовознавства, яка займається формуванням комп'ютерних корпусів текстів у різних мовах і спрямована на максимально об'єктивний аналіз мовних явищ в умовах реальної живої комунікації. Поява цієї галузі у 70-80-ті р. р. ХХ ст. пов'язана з розвитком комп'ютерної науки. У 60-ті р. р. уперше до засад корпусної лінгвістики звернувся британський професор Р. Квірк, який очолив колектив по формуванню Лондонсько-Лундського корпусу текстів. Обсяг цього корпусу дорівнював 1 млн. слововживань (у 100 писемних і 100 усних текстах). Цей корпус у машинному варіанті упорядковувався в Лундському університеті (Швеція) до 1979 року під керівництвом Я. Свартвіка. На його базі у 1985 році було укладено Повну граматику англійської мови. У США корпусна лінгвістика зазнала критики з боку основоположника генеративізму Н. Хомського, який назвав корпусний спосіб накопичення мовних даних неадекватним і хибним для опису породжувальної здатності природної мови, оскільки лише інтуїція мовця може замінити корпус і стати джерелом мовного матеріалу [The Linguistic encyclopedia 2004, 85]. Найбільш відомим корпусом американського варіанта англійської мови є Браунівський, що створювався у Браунівському університеті з 1961 року під керівництвом У. Френсіса і X. Кучери. Цей корпус має такий самий обсяг слововживань, як і Лондонсько-Лундський. До нього ввійшли 500 текстів літературного варіанта англійської мови й тексти 15 жанрів американського варіанта (індексована версія з'явилася у 1980 році). Британським аналогом Браунівського корпусу є Ланкастерсько-Осло-Бергенський (індексована версія вийшла у 1985 році). У СРСР робота над створенням корпусів текстів була розпочата з першої половини 70-х років. Із 1987 року в Уппсальському університеті створюється «Уппсальський машинний фонд російської мови» (близько 1 млн. слововживань). Спільним російсько-французьким проектом упорядковано корпус за дискурсивними словами російської мови, одиницею зберігання якого були зв'язні тексти відповідного часу, автора й жанру (15 тис. сторінок) [Дискурсивные слова русского языка 1998]. Головним поняттям корпусної лінгвістики є корпус мовленнєвої реалізації мови, що кваліфікується як сформована за певними вимогами вибірка мовленнєвого матеріалу, який може використовуватися для опису й дослідження мови як системи. Базовий, вихідний масив текстів разом із програмним забезпеченням формує динамічний корпус текстів. Складниками корпусу є одиниця зберігання, або базова одиниця, яка може відповідати слову, сполуці, синтагмі, висловленню, фрагменту тексту й цілому тексту залежно від мети створення корпусу. Одиниця зберігання може супроводжуватися параметризацією відповідних характеристик, у тому числі і джерела вилучення, а також маркерами деяких просодичних і паралінгвістичних особливостей природного мовлення. Одиниці усного мовлення обов'язково фіксуються на матеріальних носіях звукозапису, мають транскрибований вигляд, деякі корпуси містять відеозапис усного спілкування, тобто мають мультимедійний складник. Корпуси можуть охоплювати всі мовні стилі й жанри або бути обмеженими певною дискурсивною сферою чи жанром (наприклад, Боннський корпус газетних текстів, німецький корпус текстів публічної політики за період з 1989-1990 p. p. «Wendekorpus»; російський корпус текстів словника Ф. Достоєвського тощо). Обмеження сфери вибірки певним жанром, типом дискурсивної практики, зразком текстів, автором визначає проблемну галузь корпусу одиниць зберігання. Співвідношення між корпусом текстів й обраною проблемною галуззю при пропорційному звуженні назване порогом відображення. Чим вищий поріг відображення, тим імовірніші випадки відсутності якихось явищ проблемної галузі в корпусі. Залежно від мети створення корпусу вони поділяються на дослідницькі, що призначені для вивчення різних аспектів і проблем функціонування мови й мови як системи і передують дослідженню; ілюстративні, що підтверджують висновки дослідника та створюються після проведення аналізу. Останнім часом з'являються так звані моніторні корпуси, які, порівняно зі статичними, відтворюють зміни мовної системи протягом певного хронологічного періоду, наприклад, процеси архаїзації та неологізації тощо. Таким чином укладався Бірмінгемський корпус, ідеологом якого став Дж. Синклер. Цей корпус постійно поповнювався й відображав зміни в мові. До того ж користувачі отримали можливість створювати робочі корпуси з генерального корпусу, що містив 7,3 млн. слововживань. У Росії протягом 1996-1997 р. р. авторською групою у складі А. Баранова, М. Михайлова, Г. Сидорова у відділі експериментальної лексикографії Інституту російської мови РАН було створено динамічний корпус текстів сучасної публіцистики. Головними проблемами корпусної лінгвістики є: 1) спосіб представлення та збереження мовленнєвих репрезентацій (виокремлюють структурований та неструктурований способи); 2) вимоги до корпусу текстів із боку укладачів і користувачів (дослідники наголошують на принципах репрезентативності відносно проблемної галузі; повноти з метою представлення релевантних явищ; економічності, яка повинна балансувати з репрезентативністю й повнотою; прозорості та зрозумілості одиниці збереження як її самодостатності, що усуває двозначність і неясність; обов'язкової комп'ютерної підтримки [Баранов 2003, 118-121]); 3) специфіка програмного забезпечення корпусів; 4) принципи відбору параметрів проблемної галузі; 5) способи структурації корпусу; 6) транскрипція текстів усного мовлення; 7) мультимедійна підтримка корпусів усного мовлення; 8) розробка пошукових систем у корпусі; 9) способи формування робочих корпусів зі складу генерального; 10) кодування дескрипцій одиниць збереження тощо. Оскільки корпуси текстів створені або продовжують створюватися в різних країнах світу, координація зусиль дослідників є дуже незначною, що зумовлює різні формати репрезентації корпусного матеріалу, а значить, неможливість суміщення програм. На підставі обробки комп'ютерного корпусу текстів здійснюється корпусний аналіз - один з об'єктивних методів мовного аналізу, спрямований на вивчення певних закономірностей й особливостей мови та мовлення. Застосовується в лінгвістичній семантиці з метою встановлення спектра контекстуальних значень й особливостей уживання лексем. Найбільш істотними недоліками цього методу є спрощення обробки мовного матеріалу й експланаторна негнучкість, тому оптимальним є поєднання корпусного аналізу з іншими методиками мовознавства. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.) |