|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Как осуществлять поиск на этом сайте?Основные цели, задачи и корпусной лингвистики Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов). Она содержит два аспекта: во-первых, создание и разметка (аннотирование) корпусов текстов и разработка средств поиска по ним и, во-вторых, собственно лингвистический - экспериментальные исследования на базе корпусов.
Корпусная лингвистика призвана ответить на следующие вопросы: какие принципы лежат в основе устройства корпусов, как должна быть устроена стандартизованная разметка корпуса относительно различных языковых параметров (жанровая и стилевая разметка текстов, морфологическая разметка и т.п.), какие лингвистические и литературоведческие задачи можно решать с помощью корпусов, как пользоваться корпусами используя специальные языки запросов к корпусам.
Сравнительный анализ: 1 – Ruscorpora (Национальный корпус русского языка): Как осуществлять поиск на этом сайте?
Для начала поиска следует выбрать по каким признакам будет осуществлен поиск. Есть несколько параметров поиска: по составу и структуре, по статистике, с построением графиков частотности, по морфологии, по оборотам, по синтаксису, по семантике, а также по параметрам текстов.
Для описания возможностей такого поиска возьмем 6 слов – устаревших и вышедших из употребления с приведением семантики и графиков частотности.
Злыдни — в мифологии украинцев и белорусов демонические существа, враждебные человеку, его недоля, беда. Они невидимы и обитают в доме или сидят на плечах человека.
Из таблицы частотности видно, что пик употребления был в 1931 году, а также что оно до сих пор используется.
Кросна ― ручной ткацкий станок, характерный для белорусского народного ткачества
Пик употребления – с 1891 по 1893 г. Полностью вышло из речи в 2008 г.
Кармазин — пищевая добавка, относящаяся к группе красителей. Существовало с 2000 года по 2007.
Мотыга — сельскохозяйственный инструмент. График показывает довольно интересную картину – слово используется лавинообразно и каждый раз идет на спад. На данный момент не используется.
Студенец - колодец со студеной водой Пик употребления с 1877г. по 1880г. Перестало использоваться в 2008 году.
Сусек — забранное досками в виде неподвижного ларя место в амбаре, житнице. Предназначено для ссыпки зерна или хранения муки, закладки овощей и т. д. Дно сусека делается горизонтальным или наклонным к выпуску. В картофеле- и овощехранилищах между досками оставляются пространства для циркуляции воздуха вокруг хранимого продукта. Пик употребления 1797 г. Полностью вышло из употребления в 2004 г.
Это не все возможности поиска. Искать можно и тематически – через разделы по словам, грамматико-семантическим признакам, словообразованию, и т.д. Например, в историческом разделе через подраздел берестяных грамот можно получить информацию по этим документам:
При нажатии на определенный текст выводится подробная информация о нем.
Объем некоторых разделов и подразделов: В настоящее время произошли следующие изменения в объеме: Объём акцентологического корпуса увеличен до 30 млн словоупотреблений. Пополнены устный корпус (до 11,3 млн словоупотреблений) и мультимедийный корпус (до 4,3 млн). Для общего доступа открыт корпус региональной и зарубежной прессы. Объём корпуса — более 13 млн словоупотреблений. Пополнен поэтический корпус: общий объем составляет 10,9 млн. Обновлён синтаксический корпус, его объём теперь составляет более 860 тыс. словоупотреблений. Пополнен параллельный корпус: объём корпуса теперь превышает 54 млн словоупотреблений. Пополнение основного корпуса на 20 млн словоупотреблений (полный объём 230 млн словоупотреблений). Общий объем более 500 млн слов.
2 - http://corp.hum.sdu.dk/ (Corpuseye):
При разборе этой базы корпусов сразу бросается в глаза ее многоязычие. Стоит отметить, что при выборе раздела в процессе поиска может понадобится ввод пароля, то есть некоторые разделы не являются свободными для исследования. Особенности поиска: Выбор на главной странице падает не только на язык, но и версию интерфейса. Вот пример старой версии германского корпуса:
В ней лишь два корпуса с учетом количества слов – газетный и смешанный. Можно выбрать в каком именно корпусе осуществлять поиск.
Здесь видно где в каком корпусе собрано словоупотреблений. Так, в газетном разделе собрано 4 миллиона слов, а в смешанном лишь 2,5 миллиона.
А это новый интерфейс:
В нем намного больше корпусов, объем их словоупотреблений варьируется от 34 миллионов до 2, а это значит что в зависимости от выбранного раздела функциональность может быть ниже или выше. Справка спрятана в виде ссылки снизу, и если не знать где она находится - запросто можно достаточно долго ее искать. Но даже это не конец поисков из-за того, что она делится еще на несколько.
Также есть два экспериментальных корпуса: Исландский (1 миллион слов) и Фарерский (1-ый раздел – 112 тысяч слов, 2-ой раздел – 94 тысячи слов). Интерфейс у них совпадает с новым.
Поиск можно осуществлять также через “дерево корпусов” объединяющее обе версии интерфейса.
Для приведения примера возьмем Шведский корпус и слово nord (peoples from north german sept)
Поиск можно отфильтровать по релевантности, частоте, и сортировке. При наведении курсора на интересующий объект появляется краткая информация о нем. Текст с информацией о предложении можно экспортировать или получить более подробную информацию:
В отличие от ruscorpora данный корпус достаточно сырой.
Инструкция по работе с ресурсом находится на этой странице: http://corp.hum.sdu.dk/corpmanual.html
Технология разметки текстов на сайте http://opencorpora.org/:
Для разметки текстов на данном сайте надо на нем зарегистрироваться и зайти в систему. После этого, собственно, переходим к самой разметке: Задания маркированы цветом по сложности – от зеленого к серому. Выбираем задание и отвечаем на вопросы: Важно понимать, что эта разметка призвана помочь сайту, поэтому если вы не уверены просто пропустите то в чем сомневаетесь. После разметки вы через некоторое время сможете увидеть результат в статистике.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.007 сек.) |