АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Відбір джерел. Критерії відбору

Читайте также:
  1. Аналіз факторів та критеріїв сегментації
  2. Використання розширеного фільтру в середовищі EXEL,типи критеріїв.
  3. ВИМОГИ ДО ОФОРМЛЕННЯ, ПОРЯДОК ЗАХИСТУ ТА КРИТЕРІЇ ОЦІННЮВАННЯ КУРСОВОЇ РОБОТИ
  4. Відбірковий тур
  5. Вроджені гемолітичні анемії. Мікросфероцитоз (х-ба Мінковського-Шофара): методи виявлення, критерії спрямування дитини до спеціаліста.
  6. Глава 2. Критерії прийнятності та перелік видів забезпечення
  7. Глава 6. Країна походження товару та критерії достатньої переробки товару. Документи про походження товару
  8. Діагностичні критерії
  9. ДІАГНОСТИЧНІ КРИТЕРІЇ
  10. Енергетичні критерії стійкості
  11. Етапи вироблення прогнозу і критерії його ефективності

Важливою особливістю корпусу текстів є те, що це не просто безліч випадковим чином об'єднаних текстів того чи іншої мови. При його створенні виникає цілий ряд проблем. Основними з них є наступні:

1. Що має бути основною одиницею корпусу текстів?

2. Яким повинен бути обсяг корпусу текстів (скільки одиниць він повинен містити)?

3. Які письмові текстові джерела повинні бути представлені в корпусі текстів і в якій кількості?

4. З якої вихідної мовної області повинні бути обрані тексти, що включаються до складу корпусу?

Перші відповіді на ці питання були дані в численних дослідженнях професора Р.Г. Піотровського і його учнів в 1965-1980 роках, вони стосувалися відбору текстів для складання частотних словників і проведення лінгвостатістіческіх досліджень. Ті ж проблеми обговорювалися в передмові до частотних словників під ред. Л.Н. Засорін (1977) [ 13 ]. Саме тоді були вперше використані різні статистичні прийоми для оцінки генеральної сукупності вибірки, обсягу вибірки, порції вибірки (елементарної ви бірки) і т.д. [ 17 ].

Основною одиницею корпусу текстів можуть бути слововживання (зазвичай їх називають слова ми), основи (корені, леми) і пропозиції. Обсяг створюваного корпусу текстів у прийнятих одиницях залежить від цілей створення. Він може бути невеликим при вивченні частоти вживання букв, буквосполучень, звуків, звукосполучень. Набагато більшим він повинен бути при вивченні лексики, морфологічних явле ний і при изу чении синтаксичних або стилістичних особливостей текстів [ 17 ]. Проблемними є також наступні питання:

1. Тексти яких функціональних жанрів включати в корпус текстів (художню прозу, драму, вірші, наукові тексти, газети, журнали, технічні описи тощо)?

2. Тексти яких часових проміжків включати в корпус тек стів (сучасні, 10 -річної давності, 50 -річної давності, древ ня і т.д.)?

3. Чи включати тексти тільки літературної мови або також інші типи джерел? І що вважати літературною мовою?

При відповіді на ці питання розробники корпусу текстів зазвичай використовують консультації фахівців з мовознавства та лінгвостатістіке або метод анкет. Виходячи зі свого досвіду досліджень, фахівці визначають загальний обсяг корпусу текстів, час видання текстів, число текстів і розмір елементарного ної вибірки, жанри відбираються текстів і їх кількість, чис ло елементарних вибірок з кожного жанру. Метод анкет в поєднанні з досвідом фахівців був викорис зовано при створенні корпусу текстів «Американський корпус спадщини» (The American Heritage Inter mediate Corpus). Фахівці визначили його обсяг у 5 млн. слів (словоупо - требления) і рекомендували включити в нього лексику з 22 раз делов (жанрів) дитячої та юнацької літератури англійською мовою. У 221 школу США були разо Слани анкети з проханням вказати, які тексти бажано вклю чить в корпус. Після вивчення анкет був складений список з 19 тис. назв книг. З цієї безлічі було відібрано 1045 тек стів. На їх основі було складено 10 тис. елементарних вибірок по 500 слововживань кожна [ 17 ].

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.002 сек.)