Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Базы данных и лингвистические информационные ресурсы (ЛИР)

Читайте также:

1. Понятие о базах данных и действия над ними

2. СУБД системы управление базами данных, основные функции

3. ЛИР. Основные понятия. Виды ЛИР

База данная - это совокупность определенным образом упорядоченных сведений о некоторых объектах

Объекты - это сведения, факты, события. Объект может быть материальным (студент, машина) и нематериальным (факт: поступление в университет; событие - поход в цирк). Каждый объект обладает определенными свойствами или атрибутами, которым приписываются определенные значения.

В базе данных атрибуты будем называть просто данными, а их значения - значениями данных.

Номер зачетной книжки	ФИО	Факультет	Номер группы	Специализация	Стипендия
	Иванов Иван Иванович	ФМК		Английский +немецкий (02)	300000 (с01)
	Петрова Мария Петровна	ФМК		Английский+ франзузский (01)	350000 (с02)

Данное - это некоторый показатель, который характеризует заданный объект и принимает для конкретного элемента некоторое значение объекта.

Группа данных, которая образует одну строку называется записью. Чтобы пользователь мог обратиться к базе данных, ее необходимо идентифицировать (выбрать ключ по которому будет производится поиск информации).

Специализация
код	название
	Английский+немецкий
	Английский+французский

Стипендия
код	название
с01
с02

Множество файлов описывающих один и тот же объект образуют базу данных. Сегодня в базах данных хранится не только текстовая, но и графическая, видео и аудио информация.

Чаще всего база данных представлена в реляционном виде.

Действия над данными:

1. Ввод новой записи

2. Редактирование существующих записей

3. Удаление данных или записей

4. Поиск информации

Примеры: библиотека, телефонный справочник, база данных абитуриент.

Системы управления базами данными - совокупность программных средств, позволяющих осуществлять создание, ведение базы данных и поиск в них информации. Различают 2 типа СУБД:

· Настольные

· Серверные

Настольные СУБД по степени сложности подразделяются на:

· СУБД для обработки небольших объемов информации Microsoft Outlook

· СУБД ориентированные на пользователя не умеющего программировать Microsoft Excel

· СУБД ориентированные на разработку приложений Microsoft Access? Fox Base

Серверные СУБД используют архитектуру клиент - сервер. Т.е. происходит централизованное хранение и обработка данных: Microsoft SQL Server, Informix

Функции СУБД:

1. Обеспечить создание структуры базы данных. Чтобы эффективно хранить и обрабатывать информацию, необходимо определить какие данные и типы данных будут описывать объект в базе данных.

2. Модификация данных (информации) (добавление, удаление, редактирование).

3. Поиск информации.

ЛИР Лингвистические информационные ресурсы - это множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях и используемых в различных сферах практической деятельности (в образовании, издательских системах, экономике и т.д.)

В самом общем виде ЛИР - это своеобразная лингвистическая база данных, которую можно обновлять и в которой можно искать ту или иную информацию.

ЛИР необходимы как для пользователей ПК так и различным компьютерным системам, связанных с обработкой текста и речи: реферирование, перевод текстов, автоматический анализ текста, синтеза теста и речи.

Виды ЛИР:

1. Письменный лексикон

2. Письменные текстовые массивы

3. Фонетические ресурсы

Письменный лексикон представлен одноязычными и многоязычными словарями. Многоязычные словаря - это электронные словари, которые служат для поиска переводных эквивалентов.

Одноязычные словари.

· Частотно-алфовитные (алфавитно-частотные) словари словоформ какого-либо текста.

· Словоуказатели. В этих словарях кроме абсолютной частоты словоупотреблений словоформ в тексте указывается номер страницы и номер строки на странице

· Словари конкордансы. В этих словаря каждая словоформа текста характеризуется не только численными показателями, но и некоторым контекстом, в котором она уподоблена

· Энциклопедии. Это словари, содержащие характеристики не слова как такого, а обозначенного им предмета, факта или явлением. (Большая энциклопедия Кирилла и Мефодия) (Британика)

· Тезаурусы. В нем указаны семантические связи между лексическими единицами. (т.е. синонимы - антонимы)

1 первый тезаурус создан в 1852.

Терминологические словари - это словари, основной единицей которого являются термины.

Письменные текстовые массивы (корпус текста) - это совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином подмножестве языке. Суть сводится к тому, то достоверные данные о морфологической, фонетической, синтаксической и семантической структуре языке могут быть получены из достаточно большого массива текстов. Корпусы текстов используются:

· В лексикологии для составления различных словарей, выделения терминов, определения значения многозначных слов.

· В грамматике. Для определения частоты употребления грамматических морфем. Для выявления наиболее употребляемых типов словосочетаний и предложений, частоты употребления классов слов.

· В лингвистике. Для дифференцирования типов текста, создания конкордансов при автоматическом переводе текстов.

· В последние годы стали создавать тегированные корпусы текстов. Слова такого корпуса получают буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические признаки.

Сегодня часто создаются параллельные тегированные корпусы текстов на двух языках.

Фонетические ресурсы (корпусы устной речи). Главная трудность создания корпусов устной речи связана в необходимостью транскрибирования устной речи.

Несмотря на трудности, в мире существуют достаточно много фонетических корпусов, которые широко используются для:

1. Сопоставительного изучения устной и письменной формой языка.

2. Для изучения грамматических и лексических особенностей устной речи.

3. Для создания компьютерных систем, используемых с целью распознавания и синтеза устной речи.

Примеры: В США корпус устной речи - это записи психоаналитических сеансов. 225 записей в 9 городах.

В Германии записи радиопередач для транскрибирования отобрано 222 текста.

Возможности современного компьютера и вопрос перспективы развития информационных технологий.

ИТ в 3-ей тысячелетии.

В перспективном развитии глобальной сети интернет.

Понятие о виртуальной реальности.

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница