АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Корпуси усного мовлення

Читайте также:
  1. Вправа 124. Подані словосполучення запишіть у формі давального відмінка, звертаючи увагу на милозвучність мовлення. Прокоментуйте написане.
  2. Вправа 134. Подані словосполучення запишіть у формі давального відмінка, звертаючи увагу на милозвучність мовлення. Прокоментуйте написане.
  3. Етіологія порушень писемного мовлення
  4. Задачі для самостійного вирішення і усного захисту у міжсесійний період.
  5. Засоби навчання дітей українського мовлення
  6. Квантование коэффициентов дискретно-косинусного преобразования
  7. Кодирование коэффициентов дискретно-косинусного преобразования
  8. Культура мовлення вихователя
  9. Методика розвитку зв’язного укр. мовлення
  10. Методика формування граматичної правильності українського мовлення
  11. Порушення писемного мовлення

 

Прагматика не була така ретельно досліджена в комп'ютерній лінгвістиці і корпусних дослідженнях, як деякі інші сфери лінгвістики, оскільки створення репрезентативного корпусу усного мовлення було складним завданням. Зрештою, виникла необхідність створити моделі ввічливості, зміни ролей та інших явищ [42].

Укладачі корпусу не завжди можуть уявити собі все різноманіття лінгвістичних завдань, які можуть бути вирішені з його допомогою. Серед них областю особливої ​​важливості, основною для розуміння мови взагалі, є дослідження усних текстів. Корпус Лондон - Лунд (The London - Lund Corpus) був розроблений в рамках проекту «Огляд вживання англійської мови» (The Survey of English Usage). Мета проекту полягала в тому, щоб по можливості повно зафіксувати особливості граматичної системи англійської мови в мові дорослого освіченого носія. Проект розроблявся з 1960 року під керівництвом Р. Квірка в Лондонському університетському коледжі. Обсяг корпусу - 1 млн. слововживань. Текстами усного мовлення були записи радіопередач, засідань офіційних структур, а також неформальних бесід. Машинний варіант корпусу створювався в Лундському університеті (Швеція) і був готовий до використання в 1979 році. Саме корпус усного мовлення Лондон - Лунд був одним з перших машиночитаємих корпусів. Він складався з 34 текстів, що представляють таємно записані розмови, які були також опубліковані в книзі Дж. Свартвіка і Р. Квірка «Корпус англійської розмови» (1980) [59]. Ця книга була дуже корисна в той час, коли комп'ютерні корпуси були широко поширені, і було важко поводитися зі складною транскрипцією усного мовлення [44]. Хоча деякою частиною інформації довелося пожертвувати при складанні машиночитаемой версії, і ті, кого записали, навряд чи можуть вважатися середньостатистичними предствітелем осіб, які розмовляють англійською мовою, корпус Лондон - Лунд дуже допоміг у вивченні мови. Через складнощі складання корпусів усного мовлення цей корпус довго залишався найважливішим джерелом для комп'ютерного дослідження розмовної англійської.

Поява корпусу Лондон - Лунд призвело до безлічі досліджень по лексиці, граматиці, просодії мови і особливо за структурою і функціонуванню дискурсу. Так, були досліджені використання слів actually, really, you know, you see, I mean, well, питання і відповіді в англійській розмові, використання пасиву, просодических моделей англійської розмови і т.д. Усну та письмову англійську вивчалися в порівняльних дослідженнях на базі корпусів Лондон - Лунд і Ланкастер - Осло - Берген; зокрема, вивчалися модальність, зв'язку в складних реченнях, заперечення. В даний час великий інтерес корпусних лінгвістів привертають способи передачі емоцій в усному мовленні, вираз здивування і т.д. Прикладом корпусу, що дозволяє проводити подібні дослідження, є мультимедійний подкорпус у складі НКРЯ.

Відсутність балансу в доступності усного та письмового матеріалу в машиночитаемом форматі триватиме ще дуже довго. В силу різних причин, побудова корпусів усного мовлення просувається набагато повільніше, ніж побудова корпусів письмовій мові. У першу чергу, усне мовлення потрібно якось зафіксувати - наприклад, за допомогою магнітної стрічки, цифрового запису або відеокасети. Потім її потрібно записати буквами, що є стомлюючої і дорогий роботою, якість якої залежить великою мірою від якості запису і ступеня шуму зовнішнього середовища в природних умовах.

Головна складність створення фонетичних лінгвістичних ресурсів пов'язана з необхідністю транскрибування усного мовлення. При цьому виникають наступні проблеми:

1. Який алгоритм використовувати для транскрибування?

2. Чи враховувати індивідуальні особливості вимови?

3. Чи враховувати весь усний текст або його фрагменти?

4. Чи враховувати діалектні варіанти вимови слів?

5. Чи враховувати наголосу в словах?

6. Чи враховувати просодические ознаки вимовних фраз?

7. Відзначати чи слова, які при прослуховуванні нерозпізнаних?

8. Відзначати чи в запису для фонетичного корпусу паралінгвістіческіе явища, супутні мови (паузи, сміх, бурмотіння, кашель, і т.д.)? [ 17 ]

В даний час загальноприйнято, що для створення машиночитаних фонетичних корпусів використовується транскрипція на ос нове орфографічного подання звуків мови з дополнитель вими знаками, які передають (при необхідності) просодічес кі, паралінгвістіческіе та інші особливості вимови. Незважаючи на труднощі створення, в світі вже існує мно го досить представницьких фонетичних корпусів. Так, як описується в підручнику А.В. Зубова і І.І. Зубової, в 70 -х роках XX століття в США X. Далем і його колегами було створено «Корпус усного мовлення американського варіанту англійської язи ка». Він включав 1 млн. слововживань, взятих із записів психоаналітичних сеансів. З кожною з 15 касет, що були у розпорядженні укладачів корпусу, було випадковим чином відібрано 225 записів сеансів. Вони містили мова 8 жінок і 21 чоловіки з 9 міст США. Відібрані записи були затранс - крібіровани на основі стандартної англійської орфографії. Діа - лектние варіанти вимови не враховувалися. Нерозпізнані слова при записі позначалися буквою Z. Наголоси і інші просо - дичні характеристики мови також не враховувалися. У той же час при орфографічною записи мовлення в якості спеціальних коментарів відзначалися паузи, сміх, зітхання, кашель та інші па - ралінгвістіческіе явища [ 17 ].

Один з членів команди, що створила Британський на нальний корпус, Л. Бернард, стверджував, що вартість відбору 10 млн. слів з ​​усних джерел під час створення корпусу (1990 -ті роки) дорівнювала вартості відбору 50 міл лионов слів з ​​письмових джерел [ 26 ]. Дані витрати безпосередньо пов'язані ще й із суворо дотримуваним в західному світі авторським правом, у зв'язку з чим не можна провести повноцінний аналіз усних текстів і опублікувати його результати без отримання згоди їх автора, а це не завжди можливо з об'єктивних причин.

У складі Національного корпусу російської мови (який має також назву Російський національний корпус - РНК) в січні 2008 року містилося всього 3,9 % усних текстів. «Усний» компонент корпусу текстів подразделялся на наступні типи: публічна мова (64,3 %), непублічна мова (8,1 %), мова кіно (27,6 %) [27].

Таким чином, однією з найбільш важливих проблем при складанні національних корпусів текстів є їх недостатнє наповнення усними текстами, особливо що відносяться до непублічної мови - телефонним розмовам, неформальним бесідам і т.д.

 

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.)