|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Екстралінгвістична розмітка
Екстралінгвістичні розмітка, або метадані, включає в себе «зовнішню», «інтелектуальну» розмітку (бібліографічні характеристики, типологічні характеристики, тематичні характеристики, соціологічні характеристики), «формальну» структурну розмітку (текст, розділ, глава, частина, абзац, речення), а також техніко - технологічну розмітку (кодування, дати обробки, виконавців, джерело електронної версії). Набір метаданих в чому визначає можливості, надані корпусами дослідникам. При виборі цих даних необхідно керуватися цілями дослідження і потребами лінгвістів, а також можливостями щодо внесення в текст тих чи інших додаткових ознак. «Зовнішня», «інтелектуальна» розмітка потрібна, по-перше, для виявлення взаємозв'язку мови й умов його існування, по-друге, для вивчення окремих підмножин мови. Виділяють два класи факторів, що впливають на мову текстів: • зовнішні, позамовні чинники (E - external); • внутрішні фактори (I - internal). Дж. Синклер виділяє три групи E -факторів: • Е1 (origin) - фактори, що стосуються створення тексту автором; • E2 (state) - фактори, що відносяться до зовнішніми ознаками тексту (включаючи усну або письмову мову); • Е3 (aims) - фактори, що віднос до причин створення тексту і його впливу на аудиторію і дві групи I -факторів: • I1 (topic) - предметна область тексту; • I2 (style) - стилістичні особливості (стиль, жанр) [57]. У НКРЯ, наприклад, використовується наступний набір метаданих: Перший блок: 1) автор тексту: ім'я, стать, дата народження (або приблизний вік); 2) назва тексту; 3) час і місце створення тексту (може вказуватися точно або приблизно); 4) обсяг тексту: для художніх творів прийнято, що звичайна довжина розповіді - менше 5 тис. слів; звичайна довжина повісті - від 5 до 15 тис. слів; звичайна довжина роману - більше 15 тис. слів. Другий блок: параметри метаописания трьох основних масивів текстів корпусу - художніх текстів; нехудожніх текстів; драматургічних творів. Наприклад, для художніх текстів у НКРЯ вказується: 1) жанр тексту: нежанровим проза, автобіографічна проза, детектив, дитяча література, історична проза, кримінальна література, пригоди, фантастика, гумор і сатира; 2) тип тексту: автобіографічна проза, анекдот, ассоциа тивная проза, бойовик, детектив, нарис, літературне лист, повість, притча, п'єса, розповідь, роман, казка, трилер, епопея, есе та ін; 3) хронотоп тексту: приблизне вказівка на місце і час описуваних у тексті подій [27]. Реально пропонується наступне: древній Схід; Росія XVII століття; Росія XIX століття; Росія / СРСР: радянський період в цілому; Росія, радянський період - Німеччина 1920-1940 - і роки; Росія / СРСР - Європа 1960-1980- і роки; Росія / СРСР: перебудова; Росія / СРСР: радянський і пострадянський період; Америка: сучасне життя; Ізраїль: сучасне життя; Середня Азія: сучасне життя; ірреальний світ та ін Також може зустрітися тег «хронотоп не визначений». Службова, або «імпліцитно», метаразметка в НКРЯ включає: 1) «текст -стиль», при цьому виділяються академічний, науково -популярний, офіційно -діловий, нейтральний, знижений, знижений з елементами грубого просторіччя і жаргону, архаізованний, індивідуально - авторський, діалектна та ін (всього 21); 2) аудиторія - вік; 3) аудиторія - рівень освіти; 4) аудиторія – розмір Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |