Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Основні процедури обробки природної мови

Читайте также:

Основні процедури обробки природної мови: токенізація, лематизації, стеммінг, парсинг

Фактично, корпус в його сучасному розумінні - це завжди комп'ютерна база даних, і в процесі його створення природно використання спеціальних процедур і програм. Наприклад, токенізація, тобто розбиття потоку символів в природній мові на окремі значущі одиниці (токени, словоформи), є необхідною умовою для подальшої обробки природної мови. Якби мови володіли досконалою пунктуацією, токенізація не уявляла б складності - навіть найпростіша програма могла б розділити текст на слова, керуючись пробілами та розділовими знаками. Але насправді мови подібної пунктуацією не володіють, що ускладнює завдання токенізаціі. Наприклад, в англійській мові зустрічаються випадки, які не можуть бути однозначно токенізіровани. Ср: рядок chap. може бути скороченою формою слова chapter або словом chap, яке розташоване в кінці речення. Рядок Jan. можна розглядати як скорочену форму слова January або як ім'я власне, розташоване в кінці речення. У першому випадку крапка повинна бути віднесена до того ж токені, що і слово, а в другому випадку вона повинна бути виділена в окремий тег. Разом з тим, не можна не помітити, що подібні труднощі досить обмежені, і багато додатків, що обробляють текст, часто ігнорують їх (наприклад, не враховують абревіатури та складні слова), або обробляють їх за допомогою окремого алгоритму.

Інша специфічна задача морфологічного аналізу - це лематизації, тобто процес утворення первинної форми слова, виходячи з інших його словоформ. У багатьох мовах слово може зустрічатися в декількох формах з різними флексиями. Наприклад, англійське дієслово ' walk ' може бути представлений наступними формами: ' walk ', ' walked ', ' walks ', ' walking '. Базова форма, ' walk ', зафіксована в словнику, називається лемою слова. Лематизації являє собою процес угруповання різних флективних форм одного слова таким чином, щоб при аналізі вони оброблялися як одне слово.

Процес, дещо відмінний від лематизації, називається стеммінгом, він полягає в знаходженні стема (основи) слова. Різниця полягає в тому, що Стеммер обробляє окреме слово без знання контексту, і, таким чином, не може диференціювати слова, які мають різні значення в силу віднесеності до різних частин мови. Проте, Стеммер зазвичай більш прості для реалізації і швидше обробляють дані, а більш низька точність їх роботи може не мати вирішального значення для багатьох додатків. Наприклад, токені " better " відповідає лема " good ", але це опускається при стеммінге. Лемма " walk " є базовою формою для токену " walking ", і це відповідність буде виявлено як при стеммінге, так і при лематизації.

Нижче наведені приклади стеммінга і лематизації. Дано таке речення:

[ The ] [ quick ] [ brown ] [ fox ] [ jumped ] [ over ] [ the ] [ lazy ] [ dogs ].

Один з найбільш популярних Стеммер, SnowballAnalyzer, видає наступні стеми:

[ quick ] [ brown ] [ fox ] [ jump ] [ over ] [ lazy ] [ dog ].

Леми слів даної пропозиції будуть наступними:

[ the ] [ quick ] [ brown ] [ fox ] [ jump ] [ over ] [ the ] [ lazy ] [ dog ].

Лематизації пов'язана з ідентифікацією частин мови і включає в себе скорочення слів з корпусу до відповідних їм лексем. Саме лематизації дозволяє досліднику виділяти і вивчати всі варіанти окремої лексеми без необхідності введення всіх можливих варіантів. Розглянемо приклад роботи морфологічного аналізатора з англійським пропозицією " All women were walking in the streets ". Токени (словоформи) представлені зліва в дужках < >, зірочка '*' показує, що слово в тексті починається з великої літери. Під кожним токеном розташовується лема (лексема) і наводиться морфологічний розбір. Наприклад, токен " were " відноситься до лемме " be ", і його морфологічні характеристики - дієслово, минулий час, відмінюється; токен " streets " відноситься до лемме " street ", і його морфологічні характеристики - іменник, загальне, од. числа і т.д.

" < * all > "

" all " < * > <Quant> DET PRE SG / PL

" <women> "

" woman " N NOM PL

" <were> "

" be " <SV> <SVC/N> <SVC/A> V PAST VFIN

" <walking> "

" walk " <SV> <SVO> PCP1

" <in> "

" in " PREP

" <the> "

" the " <Def> DET CENTRAL ART SG / PL

" <streets> "

" street " N NOM PL

" <$. > "

Парсинг - це процес зіставлення лінійної послідовності лексем (слів, токенов) мови з його формальної граматикою. Результатом зазвичай є дерево залежностей (синтаксичне дерево). Побудова автоматичних синтаксичних аналізаторів (парсерів) для великих корпусів є однією з найважливіших областей комп'ютерної лінгвістики. Більшість підходів об'єднує якісні та кількісні виміри. Поряд з різними статистичними підходами, які тренуються на забезпечених вручну позначками синтаксичних деревах (tree - banks), багато синтаксичні аналізатори використовують засновані на правилах або засновані на обмеженнях підходи, які прямо моделюють специфічні лінгвістичні теорії. Розробка цих синтаксичних аналізаторів тісно переплітається з розвитком цих теорій. Оскільки більшість пропозицій неоднозначні в будь-якої теорії, на основі правил (або переліку обмежень) має бути розроблена стратегія зняття неоднозначності. Багато стратегії зняття неоднозначності покладаються на кількісні дані - частоту даної структури в даному корпусі (тип), обмеження на вибірку для даних лексичних одиниць, які були отримані або виділені з корпусних даних, і т.д.

Необхідно розглядати дві умови при обговоренні попередньої обробки корпусів:

1. Кожен крок підготовки тексту до обробки змушує укладача корпусу приймати лінгвістичні рішення, які впливають на наступні кроки і на оцінку корпусу. Кінцевий користувач повинен бути в курсі цих рішень, щоб знайти те, що він шукає. Наприклад, той, хто ділить тексти на складові частини, повинен вирішити, ставитися до випадків типу New York і Baden Baden як до одного слова або як до двох. Подібним чином, людина, що виявляє лексеми, повинен вирішити, що робити з такими явищами, як німецькі дієслова з відокремлюваними префіксами.

2. Кінцевого користувача потрібно поставити до відома про те, яка робота була виконана на стадії попередньої обробки і про можливі погрішності, оскільки будь-які помилки в кодуванні, особливо системні, можуть вплинути на результати, отримані користувачами корпусу

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.006 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница