|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Проектування та технологічний процес створення корпусів
Проект будь-якого корпусу повинен передбачати етапи його створення та шляхи його подальшого розвитку. Поняття корпусу є продовженням традиційних картотек, з якими завжди працювали лінгвісти. У XX столітті ці картотеки стали комп'ютерними і загальнодоступними. Значно ву роль у становленні корпусного підходу зіграла мережу Інтер ні, в процесі розвитку якої стали доступні великі обсяги текстового матеріалу, придатного для проведення різних лінгвістичних досліджень. При цьому постає традиційне питання про репрезентативність і збалансований -ності мовного матеріалу (див. п. 1.4.1), який кладеться в основу словників і граматик. Особливо гостро це питання постає при формуванні національних корпусів. Репрезентативність корпусу повинна забезпечуватися як достатнім обсягом тексто вого матеріалу, так і його різноманітністю. Крім жанрово- тематичної структури належить вирішити також безліч інших, приватних, але важливих питань, таких як: 1. Що є текстом в корпусі? Наприклад, невеликі оголошення в газетах - чи включаються вони в корпус як окремих ні тексти або їх можна об'єднувати? 2. Чи є текстом стаття в газеті? Або один випуск газети потрібно розцінювати як один текст? 3. Що є окремим текстом - збірка віршів або кожний вірш? 4. Чи є окремим текстом кожен лист в опублікованому листуванні, де авторами листів є двоє, але листи утворюють єдиний дискурс, або сукупність цих листів? Не менш важлива і проблема хронології. Що слід розуміти під корпусом сучасної російської мови? Поставши ляется, що хронологічні рамки корпусу повинні бути різними для різних жанрів. Корпус створюється для широкого кола користувачів і для вирішення різноманітних завдань, у тому числі і досить «екзоти -чеських», наприклад, для дослідження російськомовних текс тів, ис -користь іншомовну графіком. Що з вихідних текстів залишається в корпусі, а що «вичищається»? Очевидно, наприклад, що картинки не відносяться до мовного матеріалу і можуть бути видалені. Складніше йде справа з таблицями і, тим більше, з цитатами, прямою мовою, іншомовними вкрапленнями, одиницями виміру ня. Всі ці питання мають бути поставлені на етапі проектування. Вирішуватися ж вони, принаймні, деякі з них, можуть поступово в процесі створення і дослідної експлуатації корпусу. Для цього з самого початку експлуатації слід передбачити зворотний зв'язок з користувачами. Технологічний процес створення корпусу можна представити у вигляді наступних кроків або етапів: 1. Забезпечення надходження текстів відповідно з переліком джерел. 2. Перетворення в машиночитаемую форму. Тексти в електронному вигляді для створення корпусів можуть бути отримані самими різними способами - ручне введення, сканування, авторські копії, дари і обмін, Інтернет, оригінал- макети, що надаються видавництвами укладачам корпусів та ін 3. Аналіз і попередня обробка текстів. На цьому етапі всі тексти, отримані з різних джерел, проходять філологічну вивірку і коригування. Підготовка «технологічного» описи включає в себе бібліографічне та екстралінгвістичні опису тексту. 4. Конвертація і графематіческій аналіз. Деякі тексти проходять також через один або кілька етапів попередньої машинної обробки, в ході яких здійснюється перекодування (якщо потрібно), а також видалення або перетворення нетекстових елементів (малюнки, таблиці), видалення з тексту переносів, «жорстких кінців рядків» (тексти з MS -DOS), забезпечення однакового написання тире і т.д. Графематіческій аналіз передбачає проведення наступних операцій: поділ вхідного тексту на елементи (слова, роздільники й т.д.), видалення нетекстових елементів, виділення та оформлення нестандартних (нелексіческіх) елементів, обробка спеціальних текстових елементів (імен (ім'я, по батькові), написаних ініціалами, іноземних лексем, записаних латиницею, назв малюнків, приміток, сторінок форзаца, закреслень, титульних аркушів, списків літератури і т.д.). Як правило, ці операції виконуються в автоматичному режимі. Зазвичай на цьому ж етапі здійснюється сегментування тексту на його структурні складові. 5. Розмітка тексту. Розмітка тексту полягає в приписуванні текстам і їх компонентам додаткової інформації (метаданих). Метадані можна поділити на 3 типи: екстралінгвістичні, що відносяться до всього тексту; дані про структуру тексту; лінгвістичні метадані, що описують елементи тексту. Метаописания текстів корпусу включає як змістовні елементи даних (бібліографічні дані, ознаки, що характеризують жанрові та стильові особливості тексту, відомості про автора), так і формальні (ім'я файлу, параметри кодування, версія мови розмітки, виконавці етапів робіт). Ці дані зазвичай вводяться вручну. Структурна розмітка документа (виділення абзаців, пропозицій, слів) і власне лінгвістична розмітка зазвичай здійснюються автоматично. 6. Коригування результатів автоматичної розмітки: виправлення помилок і зняття неоднозначності (вручну або напівавтоматично). 7. Конвертація розмічених текстів в структуру спеціалізованої лінгвістичної інформаційно-пошукової системи (corpus manager), що забезпечує швидкий багатоаспектний пошук та статистичну обробку (заключний етап). 8. Забезпечення доступу до корпусу. Корпус може бути доступний в межах дисплейного класу, може поширюватися на компакт- диску і може бути доступний в режимі глобальної мережі. Різним категоріям користувачів можуть надаватися різні права і різні можливості. 9. Створення документаційного забезпечення, в якому описуються різні аспекти створення і використання корпусу, зокрема, наводяться відомості про розмітку, дозволяють шукати по метаданих, мова запитів корпус -менеджера і т.д. Звичайно, у кожному конкретному випадку склад і кількість проце дур можуть відрізнятися від перерахованих вище, і реальна технологія може виявитися набагато складніше. Розглянемо деякі етапи більш детально
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.) |