АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Стандартизація в корпусній лінгвістиці

Читайте также:
  1. Й Саміт з європейської стандартизації на тему: «Як стандартизація може підтримувати срібну економіку»
  2. Сертифікація і стандартизація продукції підприємства
  3. Стандартизація професійного тексту
  4. Стандартизація, сприяння підприємництву.

Корпуси, як правило, призначені для неодноразового застосування багатьма користувачами, тому їх розмітка і їх лінгвістичне забезпечення мають бути певним чином уніфіковані. Стандарти щодо корпусів зазвичай зачіпають сумісність типів розмітки. Їх називають іноді «стандартами кодування». Також важливим є питання, пов'язане з порівнянністю різних корпусів, в тому числі, оцінками з приводу їх придатності до різних завданнях. Їх називають «стандартами оцінки» [39].

Що стосується розмітки, то як лінгвістична, так і екстралінгвістичні розмітка повинні базуватися на деяких досить широко поширених і загальноприйнятих принципах опису текстів і мовних одиниць. Параметри розмітки і їх значення повинні бути досить «природними», тобто повинні відповідати загальноприйнятим науковим класифікацій. Лінгвістичне та програмне забезпечення корпус -менеджерів має підтримувати обробку типових запитів і рішення типових завдань.

Єдині формати представлення даних дозволяють у багатьох випадках використовувати єдине програмне забезпечення і обмінюватися корпусними даними. Можна говорити, з одного боку, про стандартизацію форматів представлення даних з точки зору їх наповнення, з іншого боку, з точки зору їх структури.

Найбільшу складність представляє стандартизація транскрибування усного мовлення. Хоча в області графічної фіксації усного мовлення навіть за відсутності єдиного і обов'язкового для всіх стандарту досягнутий певний прогрес (пов'язаний насамперед з наявністю прецедентів), то в описа нії невербальної складової природномовної комунікації стандарти не вироблені, що ускладнює подальше просування в цій області

Стандартизація відносно корпусів, сумісність типів даних важливі і з погляду порівнянності різних корпусів. Причому корпуси можуть піддаватися як кількісної, так і якісної оцінки. Кількісні дані про корпусах дозволяють судити про їх обсязі, про наповнення корпусу за різними критеріями, про лінгвостатіческіх параметрах корпусу або подкорпусов. Під якісною оцінкою розуміється оцінка і порівняння корпусів на основі аналізу видаваних результатів.

Питання придатності корпусів до різних лінгвістичним завданням також вимагають своїх «стандартів оцінки».

В даний час на основі міжнародного досвіду виробилися де- факто стандарти представлення метаданих, що базуються на описах текстів у рамках проекту Text Encoding Initiative (TEI) і на рекомендаціях EAGLES (Expert Advisory Group on Language Engineering Standards).

Як вже говорилося, за класифікацією Дж. Сінклера, виділяють два класи факторів, що впливають на мову текстів: зовнішні, позамовні чинники (E - external) і внутрішні фактори (I - internal). Для російської мови ці стандарти були адаптовані С.А. Шаровим (http://ruscorpora.ru/sbornik2005/05savchuk.pdf) і використані при створенні Національного корпусу російської мови.

В якості формального мови розмітки текстів у корпусі широко застосовуються мови SGML і XML. Стандарти EAGLES безпосередньо включаються в технологічну середу мови XML (див., зокрема, стандарт Corpus Encoding Standard for XML (XCES)).

Крім того, широко використовується так званий вертикальний формат, коли кожне слово і вся інформація до нього даються окремим рядком. У цьому форматі лінгвістичні параметри часто даються в позиційній системі кодування, де кожній позиції відповідає певне граматичне значення. Прикладом такої розмітки є розмітка Чеського національного корпусу.

В якості одного із стандартів морфологічної розмітки слід назвати багатомовні морфосинтаксичного специфікації (multilingual morphosyntactic specifications) MULTEXT - East Version 4


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)