Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Коефіцієнти мовної різноманітності

Читайте также:

Питання до теми «Статистична лінгвістика»

Cфери застосування статистичних методів у мовознавстві.

Статистична лінгвістика - наука, що займається виявленням та описом кількісних характеристик та закономірностей мови та мовлення; ґрунтується на факті, що певні кількісні характеристики, а також функціональні залежності між ними, отримані на обмеженій вибірці, характеризують мову загалом або окремі її функціональні стилі. Завданням статистичної лінгвістики є визначення статистичної структури тексту для вирішення задач, зокрема, лінгвометрії, стилеметрії та глоттохронології. Ці задачі полягають, наприклад, у автоматизації лексикографічних процесів, порівнянні словників, створенні систем стенографії, автоматичного визначення мови чи автентичності твору, типології, атрибуції (авторська, часова, стилева - для застосування, наприклад, у судовій та кримінальній лінгвістиці), діагностиці і т.д. текстів та їх частин, визначенні тривалості роздільного існування двох споріднених мов тощо. Також результати статистичної лінгвістики знаходять своє застосування у криптолінгвістиці, під час інформаційного пошуку. Лінґвометрія - галузь прикладної лінгвістики, що виявляє, вимірює та аналізує кількісні характеристики одиниць різних рівнів мови. Застосовуючи апарат математичної статистики, лінґвометрія бере участь у вирішенні таких завдань мовознавства, як створення та порівняння словників, створення автоматичних словників, тезаурусів, створення систем стенографії, автоматичне визначення мови, інформаційний пошук тощо. Cтилеметрія - галузь прикладної лінгвістики, що виявляє, вимірює та аналізує кількісні характеристики певного функціонального стилю мови чи мовлення. Вона вирішує задачі типології, діагностики, атрибуції, класифікації, реконструкції, датування, тощо. Гроттохронологія – підрозділ порівняльно-історичного та математичного мовознавства, предметом якого є виявлення швидкості мовних змін та визначення на основі цього часу споріднення розмовних мов.

Коефіцієнти мовної різноманітності

Лінґвометрія - галузь прикладної лінгвістики, що виявляє, вимірює та аналізує кількісні характеристики одиниць різних рівнів мови. Для визначення таких характеристик використовуються коефіцієнти мовної різномантіності. Коефіцієнт лексичної різноманітності тексту - це відношення кількості слів до загальної кількості словоформ тексту, тобто:

,де - коефіцієнт лексичної різноманітності, W - кількість слів у певному тексті, N- загальна кількість слів цього тексту. Значення коефіцієнта лежить у межах [0;1]. Що більшим є отримуваний десятковий дріб, тим вищою є лексична різноманітність.

Коефіцієнт синтаксичної складності формують із відношення кількості речень до кількості слів тексту:

,де — коефіцієнт синтаксичної складності, — кількість речень, - кількість слів у всьому тексті. Що більшим буде дріб (в межах [0;1]), тим багатослівнішими загалом є речення такого тексту, а отже, - вища можливість різноманітності синтаксичних відношень між словами в окремому реченні.

Коефіцієнт зв’язності мовлення вимірюють як відношення кількості прийменників і сполучників до кількості окремих речень (коефіцієнт дорівнює одиниці, коли в одному реченні є три сполучні елементи (прийменники і сполучники):

де - кількість прийменників, — кількість сполучників, — кількість окремих речень.

Індекс винятковості характеризує варіативність лексики, тобто частку тексту, яку займають слова, що трапилися 1 раз, та обчислюють таким чином:

де — індекс винятковості тексту, - кількість слів із частотою 1, — кількість слів у всьому тексті.

Протилежним до індексу винятковості є індекс концентрації тексту, що вказує частку тексту, яку займають слова, що трапилися 10 разів і більше.

де - індекс концентрації тексту, -кількість слів із частотою 10 та більше, — кількість слів у всьому тексті:

Виявлено, що текст казки має коефіцієнт зв’язності 0,77, а текст наукової статті - 3,0, тобто зв’язність у другому тексті у 3,9 разів сильніша, ніж у першому.

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.687 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница