|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Відбір джерел. Критерії відборуВажливою особливістю корпусу текстів є те, що це не просто безліч випадковим чином об'єднаних текстів того чи іншої мови. При його створенні виникає цілий ряд проблем. Основними з них є наступні: 1. Що має бути основною одиницею корпусу текстів? 2. Яким повинен бути обсяг корпусу текстів (скільки одиниць він повинен містити)? 3. Які письмові текстові джерела повинні бути представлені в корпусі текстів і в якій кількості? 4. З якої вихідної мовної області повинні бути обрані тексти, що включаються до складу корпусу? Перші відповіді на ці питання були дані в численних дослідженнях професора Р.Г. Піотровського і його учнів в 1965-1980 роках, вони стосувалися відбору текстів для складання частотних словників і проведення лінгвостатістіческіх досліджень. Ті ж проблеми обговорювалися в передмові до частотних словників під ред. Л.Н. Засорін (1977) [ 13 ]. Саме тоді були вперше використані різні статистичні прийоми для оцінки генеральної сукупності вибірки, обсягу вибірки, порції вибірки (елементарної ви бірки) і т.д. [ 17 ]. Основною одиницею корпусу текстів можуть бути слововживання (зазвичай їх називають слова ми), основи (корені, леми) і пропозиції. Обсяг створюваного корпусу текстів у прийнятих одиницях залежить від цілей створення. Він може бути невеликим при вивченні частоти вживання букв, буквосполучень, звуків, звукосполучень. Набагато більшим він повинен бути при вивченні лексики, морфологічних явле ний і при изу чении синтаксичних або стилістичних особливостей текстів [ 17 ]. Проблемними є також наступні питання: 1. Тексти яких функціональних жанрів включати в корпус текстів (художню прозу, драму, вірші, наукові тексти, газети, журнали, технічні описи тощо)? 2. Тексти яких часових проміжків включати в корпус тек стів (сучасні, 10 -річної давності, 50 -річної давності, древ ня і т.д.)? 3. Чи включати тексти тільки літературної мови або також інші типи джерел? І що вважати літературною мовою? При відповіді на ці питання розробники корпусу текстів зазвичай використовують консультації фахівців з мовознавства та лінгвостатістіке або метод анкет. Виходячи зі свого досвіду досліджень, фахівці визначають загальний обсяг корпусу текстів, час видання текстів, число текстів і розмір елементарного ної вибірки, жанри відбираються текстів і їх кількість, чис ло елементарних вибірок з кожного жанру. Метод анкет в поєднанні з досвідом фахівців був викорис зовано при створенні корпусу текстів «Американський корпус спадщини» (The American Heritage Inter mediate Corpus). Фахівці визначили його обсяг у 5 млн. слів (словоупо - требления) і рекомендували включити в нього лексику з 22 раз делов (жанрів) дитячої та юнацької літератури англійською мовою. У 221 школу США були разо Слани анкети з проханням вказати, які тексти бажано вклю чить в корпус. Після вивчення анкет був складений список з 19 тис. назв книг. З цієї безлічі було відібрано 1045 тек стів. На їх основі було складено 10 тис. елементарних вибірок по 500 слововживань кожна [ 17 ].
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |