Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Поняття розмітки

Читайте также:

Серед спеціальних програм для обробки природної мови особливе місце займають програми автоматичної розмітки. Розмітка корпусів (tagging, annotation) являє собою трудомістку операцію, особливо врахо вая розміри сучасних корпусів. Якщо для деяких видів розмітки, зокрема, анафорической, просодичною, створення автоматичних систем поки представляється досить складним і основна частина роботи проводиться вручну, то для морфологічного та синтаксичного аналізу існують різні програмні засоби, які прийнято називати відповідно теггера (taggers) і парсери (parsers). В результаті роботи програм автоматичного морфологич ського аналізу (теггера) кожної лексичної одиниці приписуються граммати че- ські характеристики, включаючи частина мови, лемму і набір граммем (наприклад, рід, число, відмінок, натхненність / неодушевленность, перехідність і т.д.). В результаті роботи програм автоматичного синтаксичного аналізу фіксуються сін таксіческіе зв'язку між словами і словосполученнями, а синтаксич ським одиницям приписуються відповідні характеристики (тип пропозиції, синтаксична функція словосполучення і т.д.).

Однак автоматичний аналіз природної мови небезошібо -чен і багатозначний - він, як правило, дає кілька варіантів аналізу для однієї лексичної одиниці (слова, словосполучення, речення). У цьому випадку говорять про граматичної омонімії. Зняття неодно значности (морфологічної, синтаксичної) в цілому є однією з найважливіших і найскладніших задач комп'ютерної лінгвістики. При створенні корпусів для зняття неоднозначності використовуються автома тичні і ручні способи. Корпуси нового покоління включають сотні мільйонів слів, тому висуваються принципи розробки систем, які б мінімізували втручання людини. Автома тичні дозвіл морфологічної або синтаксичної неоднозначності, як правило, грунтується на використанні інформації більш високого рівня (синтаксичного, семантичного) із застосуванням статистичних методів.

Для вирішення різних лінгвістичних завдань недостатньо мати масив текстів. Потрібна також, щоб тексти містили в собі явним чином зазначену різного роду додаткову лінгвістичну та екстралінгвістичну інформацію. Так, на матеріалі корпусу, подібного брауновского, можна легко виявити частотність слів - їх регулярне вживання в певних контекстах. Однак це буде частотність токенов (словоформ). Для визначення частоти лексем кожному слову повинна бути приписана її лема.

Для підрахунку частот в розрізі граматичних категорій вони також повинні бути марковані. У корпусі, забезпеченому такою інформацією, іменники мають, наприклад, тег noun, дієслова - тег verb і т.д. Крім іншого, такі теги дозволяють вивчати групові характеристики слів, що мають певну посліду. Якщо постачати тегами слова у великому корпусі вручну, це займе дуже багато часу, тому дослідники розробили способи автоматичної розмітки в корпусі. Один з простих способів полягає в тому, щоб комп'ютеризований словник, в якому зазначені лексичні категорії для найпоширеніших слів або для найбільшої кількості слів, поєднати з нерозмічену корпусом. Потім кожному слову в нерозмічену корпусі може бути автоматично привласнений тег від відповідного йому слова в забезпеченому позначками словнику. Таким чином, якщо словоформи information і distribution з'явилися і в корпусі, і в словнику, тег ' noun ', який супроводжував ці словоформи в словнику, автоматично буде перенесений на них в корпусі. Подібно до цього, такі форми як lexical і frequent будуть позначені як прикметники, оскільки вони завжди є членами цієї категорії, the і a будуть позначені як артиклі, identify і see - як дієслова і т.д. [42].

Цей процес знаходження відповідних форм в корпусі і в забезпеченому позначками словнику не може бути використаний для визначення категорій всіх форм, тому що деякі форми можуть бути членами більш ніж однієї категорії. Ця проблема носить назву «проблема морфологічної неоднозначності (ambiguity)». Наприклад, слова words, forms, can, use, present і process можуть бути як іменниками, так і дієсловами. Оскільки в англійській мові так багато форм належить більш ніж однієї категорії, точно розмітити слова можна завдяки більш складним процедурам, ніж автоматичне суміщення зі словником. Звичайно, в контексті (тобто в дійсному використанні) словоформа належить тільки одній категорії. Отже, досягти точної розмітки англійської корпусу можна шляхом аналізу контексту або аналізу більш високого рівня: синтаксичного аналізу для морфологічної розмітки, семантичного - для синтаксичної.

Візьмемо слово deal як приклад. Як словоформа, воно може бути як іменником, так і дієсловом. Припустимо, що корпус містив фразу a good deal of trouble, і припустимо, що автоматичне суміщення зі словником вже дозволило помітити good як прикметник. При виборі між тим, чи передує прикметник іменника або дієслова, набагато надійніше вибрати іменник, оскільки в англійській мові прикметники зазвичай передують іменником і зазвичай не передують дієсловам. Так, deal в a good deal of trouble може бути позначено як іменник. Іншими словами, оскільки good однозначно є прикметником, воно буде позначено як adjective на початковому рівні постачання позначками шляхом суміщення корпусу зі словником. Якщо починати розмітку, размечая тільки слова, що належать виключно однієї категорії, а потім використовувати цю інформацію для того, щоб прояснити неоднозначні випадки, багато складних проблем зможуть бути вирішені. У звичайній практиці трапляється так, що слова забезпечуються позначками спочатку для всіх частин мови, до яких вони можуть ставитися, а потім категорії примикають слів використовуються для визначення категорії слів, у яких є кілька послід.

Отже, розмітка полягає в приписуванні текстам і їхніх компонентів спеціальних тегів: власне лінгвістичних, що описують лексичні, граматичні та інші характеристики елементів тексту, і зовнішніх, екстралінгвістичних (відомості про автора і відомості про текст: автор, назва, рік і місце видання, жанр, тематика)

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница