АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Корпус как инструмент наблюдения за эволюцией языка

Читайте также:
  1. I. Нормы литературного языка
  2. I. Стилистические нормы современного русского литературного языка
  3. II. Работа с лексическим составом языка
  4. III. Опубликованные за границей (в эпоху независимой Латвии, на латышском и русском языках)
  5. IV Международный конкурс эссе на русском и английском языках
  6. PR - public relations (общественные связи): цели и задачи, области их использования, инструменты PR.
  7. XVI. Дневник наблюдения за больным
  8. Автоматический поиск инструмента и его кодирование
  9. Автономный цифровой термопреобразователь в корпусе iButton
  10. Административно-бытовые корпуса
  11. Адміністративно-побутовий корпус №1
  12. Адміністративно-побутовий корпус №2

 

Корпус некоторого языка — это, в первом приближении, собрание текстов на данном языке, представленное в электронной форме и снабженное научным аппаратом. Аппарат, «встроенный» в корпус, обычно называется «разметкой», или «аннотацией», корпуса; корпус тем лучше, чем полнее и совершеннее его аннотация. Собственно, наука о корпусах (а таковая давно уже существует и называется «корпусная лингвистика») — это прежде всего наука о том, как сделать хорошую разметку корпуса.

Как инструмент корпус позволяет исследовать язык в динамике, то есть постоянно. Он позволяет следить за тенденциями наблюдающимися в языке и вносить поправки\дополнения в общую базу данных. Например, когда еще не было столь большого технического прогресса часто использовались такие слова как каравай, жбан, салоп, и т.д. Их значения не утрачены, они находятся в базе данных, но в речи уже не используются. И так происходит всегда. Появляется новое явление\процесс – появляется и новое слово. Корпус позволяет следить за развитием языка, показывая значения устаревших\новых слов в динамике.

 

Итак, корпус — это электронное собрание текстов, размеченное таким образом, чтобы в нем можно было быстро найти слова и конструкции с заданными грамматическими и другими интересными лингвисту свойствами. Что же такое Национальный корпус?

 

В данном случае слово «национальный» — своего рода термин, отражающий скорее семантику английского слова «national», чем русского слова «нация». Впервые это определение появилось в названии Британского национального корпуса (British National Corpus, BNC), созданного в 1990-е годы в Великобритании специалистамилексикографами; это не самый первый электронный корпус, созданный в мире, но один из лучших, крупнейших и наиболее известных. Для британцев слово «национальный» означало в первую очередь «характеризующий британский национальный вариант английского языка» (в отличие от американского, австралийского и т. п.), но поскольку этот корпус очень быстро стал практически эталоном корпуса вообще, то значение слова «национальный» незаметно изменилось. Национальным корпусом стали называть просто самый большой и представительный корпус, характеризующий язык данной страны в целом. Таким, например, оказался Чешский национальный корпус (C.esky. narodni korpus), содержащий практически исчерпывающую коллекцию текстов на чешском литературном языке разных периодов.

 

Понятно, что Национальный корпус должен быть прежде всего большим: его объем измеряется сотнями миллионов словоупотреблений (для сравнения можно сказать, что, например, полное собрание сочинений Ф. М. Достоевского насчитывает «всего» около двух миллионов слов). Но, кроме того, он — и это даже важнее — должен быть представительным. Иначе говоря, он должен содержать все типы текстов, представленные в данном языке в данный исторический период, и при этом содержать их в правильной пропорции.

 

Именно поэтому Национальный корпус русского языка[1] не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные и журнальные статьи разной тематики (от общественно-политических до, например, спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку и дневники. Словом, в Корпус попадают образцы практически любого существующего в русском языке письменного дискурса — от статьи современного музыкального критика до инструкции по уходу за кактусами, от рассказов Пелевина до справочника по физике. Более того, составители Корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке (или, если угодно, с современным русским языком) необходимо еще в большей степени расширить рамки Корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа делается.

 

Почему образцы устной речи так важно иметь в Корпусе? Люди пишут не так, как говорят; в особенности это различие ощутимо для языков с давней письменной традицией, за время существования которой нормы письменной и устной речи успевают разойтись достаточно сильно. Письменная речь всегда более консервативна; к тому же, например, в русском языке письменная традиция формировалась под сильным иноязычным влиянием (первоначально старославянским, впоследствии немецким и французским), которое гораздо меньше затронуло устную речь. В этом отношении русский язык не исключение: сходным образом дело обстоит во многих европейских письменных языках, от чешского до французского, а также во многих письменных языках Азии с древней литературной традицией.

 

Таким образом, если мы хотим выявить наиболее динамичные структуры живого русского языка — и если мы хотим хотя бы отчасти заглянуть в будущее русского языка, мы должны обратиться к стихии устной речи, не скованной традицией и нормой. Многое в устной речи поражает — но, с другой стороны, многие конструкции, существующие в современной устной стихии, неожиданно всплывают в документах времен Алексея Михайловича и даже в новгородских берестяных грамотах XII–XIV веков.

 

Заключение

 

Я провел сравнительный анализ двух корпусов – ruscorpora.ru и http://corp.hum.sdu.dk/

Оба они неплохи, однако не могут быть расценены одинаково.

И вот почему:

1 – ruscorpora.ru

Высоко структуризированный, обладающий множеством настроек и функций поиска ресурс, отлично подходящий для работы с языком. Все инструкции ясны, находятся на главной странице, их легко заметить, в отличие от http://corp.hum.sdu.dk/

Все разделы поиска могут быть распределены по дате\теме\месту\автору.

И это отличные возможности которых я не заметил у сайта-оппонента.

Также я не заметил чтобы на втором сайте были такие функции как, например, построение частотного графика с приведением таблиц частотности. В отличие от второго интуитивно понятен, и потому считаю его лучшим чем второй сайт.

2 - http://corp.hum.sdu.dk/

Данный сайт предоставляет возможность работать с несколькими языками.

По нему сразу видно, что он достаточно “сырой”. В нем лишь поиск по отдельным словам и предложениям, без предоставления исчерпывающей информации о тексте. Присутствует несколько вариантов интерфейса, но разнятся они мало. Организован выбор подраздела в виде списка со сводкой по объему слов, чего не было в первом сайте. Некоторые разделы не являются свободными для изучения и требуют пароль. Но в целом и общем это далеко не такой понятный сайт для обычных пользователей. И поэтому хуже чем первый сайт.


1 | 2 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)