|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Поняття репрезентативності корпусівТермін «корпус» зазвичай позначає зібрання текстів кінцевого фіксованого розміру. З плином часу обсяг і склад корпусу може змінюватися, проте ці зміни повинні або не змінювати його структуру, або міняти її обгрунтовано. Показність корпусу, співвідношення його окремих частин (за різними характеристиками) отримали назву репрезентативності, або сбалансировнно. Обсяг першого корпусів, як уже говорилося, становив 1 млн. слововживань (Браунівський корпус, корпус Ланкастер - Осло - Берген, Упсальський корпус російської мови). Такий обсяг не дозволяв відображати мову у всьому його різноманітті. В даний час вважається, що загальномовного (національний) корпус повинен включати не менше 100 млн. слововживань. Національний корпус представляє даний мову на певному етапі (або етапах) його існування у всьому різноманітті жанрів, стилів, територіальних і соціальних варіантів і т. п. (наприклад, НКРЯ, доступний за адресою http://ruscorpora.ru, BNC, обмежено доступний за адресою http://www.natcorp.ox.ac.uk/ або http://sara.natcorp.ox.ac.uk). Можна сказати, що всі сучасні лінгвістичні дослідження і роботи зі складання словників і граматик так чи інакше орієнтовані на використання представницьких (репрезентативних) корпусів текстів. Завдання авторів корпусу - зібрати якомога більшу кількість текстів, що відносяться до того подмножеству мови, для вивчення якого корпус створюється. Можна сказати, що корпус - це зменшена модель мови або підмови. Під репрезентативністю розуміється необхідно - достатнє і пропорційне представлення в корпусі текстів різних періодів, жанрів, стилів, авторів і т.д., тобто здатність відображати всі властивості проблемної області [ 31 ]. Є різні підходи до визначення репрезентативності. Зокрема, є думка, що стосовно до загальномовних (національному) корпусу це поняття неможливо розрахувати і описати строго математично, однак до цього можна і потрібно прагнути, як на етапі проектування корпусу, так і на етапі його експлуатації. Практика показує, що корпусні лінгвістика оперує як мінімум двома різними типами об'єктів (корпусів текстів): 1. Корпуси першого типу універсальні, вони відбивають у собі все різноманіття мовної діяльності. 2. Корпуси другого типу відображають побутування деякого лінгвістичного чи культурного феномена в суспільній мовній практиці, вони побудовані ad hoc (для спеціальної мети), наприклад, корпус прислів'їв або корпус політичних метафор в газетної мови [31]. В обох випадках репрезентативність розглядається тільки як статистична оцінка того, чи всі властивості проблемної області відображені в корпусі текстів. Проте статистичні критерії оцінки тут не завжди є єдиними або визначальними, оскільки корпус виступає як деякий об'єкт, покликаний послужити моделлю деякої зовнішньої по відношенню до нього реальності. Саме репрезентативність корпусу визначає достовірність отриманих на його матеріалі результатів. Цю проблему також можна розглядати як проблему адекватного відображення, адаптації чи інтеграції великих масивів текстів чи деяких інших фрагментів мовної діяльності в істотно менший за обсягом корпус текстів. Мовленнєва дійсність надзвичайно різноманітна, представлена в різних фактурах (усна, письмова, друкована мова і т.д.), і різноманітність зафіксованих в ній лінгвістичних явищ просто неозора. У 60 -ті роки корпуси текстів, що відносяться до першого типу, претендували на те, що вони універсальні, тобто відображають статистично коректно всю картину побутування даної мови або деякий представницький її фрагмент [51]. Наприклад, Браунівський корпус текстів був створений для відображення друкованої мови США 60 -х років із задовільною для того часу ступенем репрезентативності. Відібрані тексти, як уже говорилося, мали представляти 15 жанрів (регістрів), з яких було зроблено від 6 до 80 елементарних вибірок: 1) преса: репортаж; 2) преса: передовиця; 3) преса: огляди; 4) релігійні тексти; 5) навички, заняття, хобі; 6) науково -популярна література; 7) белетристика, біографії, есе; 8) різне (урядові документи, звіти підприємств, промислові звіти, каталоги коледжів); 9) наукові твори; 10) художня література; 11) містика і детективи; 12) наукова проза; 13) пригодницька література та вестерни; 14) любовні романи; 15) гумористичні твори. У корпусах другого типу критерієм репрезентативності буде служити вимога максимально об'єктивного уявлення побутування даного його творців явища. Так, корпус англійських прислів'їв, максимально репрезентативно відображає їх вживання в мовній практиці носіїв англійської мови певного часу і географічного регіону, що не буде репрезентативним для вивчення, наприклад, англійської політичної метафори [31]. На початку XXI століття вільно обговорюються такі корпуси текстів, як корпус газетних заголовків, корпус англійських текстів, призначених для налагодження систем машинного перекладу, корпус політичних метафор [ 2 ]. Очевидно, що тут критерій відбору текстів для корпусу його творець задає сам, виходячи з цілей своєї практичної чи наукової діяльності, оскільки в основі корпусу завжди лежить постановка проблеми для проведення наукового пошуку. Методологія конструювання такого об'єкта, як корпус, повинна залежати від типу корпусу. Ця проблема є актуальною і недостатньо розробленою. Методологія побудови корпусів першого типу так чи інакше грунтується на принципі дедукції - реалізації проблеми коректності руху від загального (об'єктивно існуючої мовної практики носіїв мови) до отражающему це загальне приватному корпусу текстів. Методологія побудови корпусів другого типу повинна коректно відображати приватні, поодинокі лінгвістичні феномени в корпусі текстів, спеціально створеному для їх відображення [ 20 ]. Теорія і практика показують, що обидва ці підходи, проте, часто застосовуються в комбінованому вигляді.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.) |