|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Стандартизація в корпусній лінгвістиці
Корпуси, як правило, призначені для неодноразового застосування багатьма користувачами, тому їх розмітка і їх лінгвістичне забезпечення мають бути певним чином уніфіковані. Стандарти щодо корпусів зазвичай зачіпають сумісність типів розмітки. Їх називають іноді «стандартами кодування». Також важливим є питання, пов'язане з порівнянністю різних корпусів, в тому числі, оцінками з приводу їх придатності до різних завданнях. Їх називають «стандартами оцінки» [39]. Що стосується розмітки, то як лінгвістична, так і екстралінгвістичні розмітка повинні базуватися на деяких досить широко поширених і загальноприйнятих принципах опису текстів і мовних одиниць. Параметри розмітки і їх значення повинні бути досить «природними», тобто повинні відповідати загальноприйнятим науковим класифікацій. Лінгвістичне та програмне забезпечення корпус -менеджерів має підтримувати обробку типових запитів і рішення типових завдань. Єдині формати представлення даних дозволяють у багатьох випадках використовувати єдине програмне забезпечення і обмінюватися корпусними даними. Можна говорити, з одного боку, про стандартизацію форматів представлення даних з точки зору їх наповнення, з іншого боку, з точки зору їх структури. Найбільшу складність представляє стандартизація транскрибування усного мовлення. Хоча в області графічної фіксації усного мовлення навіть за відсутності єдиного і обов'язкового для всіх стандарту досягнутий певний прогрес (пов'язаний насамперед з наявністю прецедентів), то в описа нії невербальної складової природномовної комунікації стандарти не вироблені, що ускладнює подальше просування в цій області Стандартизація відносно корпусів, сумісність типів даних важливі і з погляду порівнянності різних корпусів. Причому корпуси можуть піддаватися як кількісної, так і якісної оцінки. Кількісні дані про корпусах дозволяють судити про їх обсязі, про наповнення корпусу за різними критеріями, про лінгвостатіческіх параметрах корпусу або подкорпусов. Під якісною оцінкою розуміється оцінка і порівняння корпусів на основі аналізу видаваних результатів. Питання придатності корпусів до різних лінгвістичним завданням також вимагають своїх «стандартів оцінки». В даний час на основі міжнародного досвіду виробилися де- факто стандарти представлення метаданих, що базуються на описах текстів у рамках проекту Text Encoding Initiative (TEI) і на рекомендаціях EAGLES (Expert Advisory Group on Language Engineering Standards). Як вже говорилося, за класифікацією Дж. Сінклера, виділяють два класи факторів, що впливають на мову текстів: зовнішні, позамовні чинники (E - external) і внутрішні фактори (I - internal). Для російської мови ці стандарти були адаптовані С.А. Шаровим (http://ruscorpora.ru/sbornik2005/05savchuk.pdf) і використані при створенні Національного корпусу російської мови. В якості формального мови розмітки текстів у корпусі широко застосовуються мови SGML і XML. Стандарти EAGLES безпосередньо включаються в технологічну середу мови XML (див., зокрема, стандарт Corpus Encoding Standard for XML (XCES)). Крім того, широко використовується так званий вертикальний формат, коли кожне слово і вся інформація до нього даються окремим рядком. У цьому форматі лінгвістичні параметри часто даються в позиційній системі кодування, де кожній позиції відповідає певне граматичне значення. Прикладом такої розмітки є розмітка Чеського національного корпусу. В якості одного із стандартів морфологічної розмітки слід назвати багатомовні морфосинтаксичного специфікації (multilingual morphosyntactic specifications) MULTEXT - East Version 4 Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |