|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Коефіцієнти мовної різноманітності
Питання до теми «Статистична лінгвістика» Cфери застосування статистичних методів у мовознавстві. Статистична лінгвістика - наука, що займається виявленням та описом кількісних характеристик та закономірностей мови та мовлення; ґрунтується на факті, що певні кількісні характеристики, а також функціональні залежності між ними, отримані на обмеженій вибірці, характеризують мову загалом або окремі її функціональні стилі. Завданням статистичної лінгвістики є визначення статистичної структури тексту для вирішення задач, зокрема, лінгвометрії, стилеметрії та глоттохронології. Ці задачі полягають, наприклад, у автоматизації лексикографічних процесів, порівнянні словників, створенні систем стенографії, автоматичного визначення мови чи автентичності твору, типології, атрибуції (авторська, часова, стилева - для застосування, наприклад, у судовій та кримінальній лінгвістиці), діагностиці і т.д. текстів та їх частин, визначенні тривалості роздільного існування двох споріднених мов тощо. Також результати статистичної лінгвістики знаходять своє застосування у криптолінгвістиці, під час інформаційного пошуку. Лінґвометрія - галузь прикладної лінгвістики, що виявляє, вимірює та аналізує кількісні характеристики одиниць різних рівнів мови. Застосовуючи апарат математичної статистики, лінґвометрія бере участь у вирішенні таких завдань мовознавства, як створення та порівняння словників, створення автоматичних словників, тезаурусів, створення систем стенографії, автоматичне визначення мови, інформаційний пошук тощо. Cтилеметрія - галузь прикладної лінгвістики, що виявляє, вимірює та аналізує кількісні характеристики певного функціонального стилю мови чи мовлення. Вона вирішує задачі типології, діагностики, атрибуції, класифікації, реконструкції, датування, тощо. Гроттохронологія – підрозділ порівняльно-історичного та математичного мовознавства, предметом якого є виявлення швидкості мовних змін та визначення на основі цього часу споріднення розмовних мов. Коефіцієнти мовної різноманітності Лінґвометрія - галузь прикладної лінгвістики, що виявляє, вимірює та аналізує кількісні характеристики одиниць різних рівнів мови. Для визначення таких характеристик використовуються коефіцієнти мовної різномантіності. Коефіцієнт лексичної різноманітності тексту - це відношення кількості слів до загальної кількості словоформ тексту, тобто: ,де - коефіцієнт лексичної різноманітності, W - кількість слів у певному тексті, N- загальна кількість слів цього тексту. Значення коефіцієнта лежить у межах [0;1]. Що більшим є отримуваний десятковий дріб, тим вищою є лексична різноманітність. Коефіцієнт синтаксичної складності формують із відношення кількості речень до кількості слів тексту: ,де — коефіцієнт синтаксичної складності, — кількість речень, - кількість слів у всьому тексті. Що більшим буде дріб (в межах [0;1]), тим багатослівнішими загалом є речення такого тексту, а отже, - вища можливість різноманітності синтаксичних відношень між словами в окремому реченні. Коефіцієнт зв’язності мовлення вимірюють як відношення кількості прийменників і сполучників до кількості окремих речень (коефіцієнт дорівнює одиниці, коли в одному реченні є три сполучні елементи (прийменники і сполучники): де - кількість прийменників, — кількість сполучників, — кількість окремих речень. Індекс винятковості характеризує варіативність лексики, тобто частку тексту, яку займають слова, що трапилися 1 раз, та обчислюють таким чином: де — індекс винятковості тексту, - кількість слів із частотою 1, — кількість слів у всьому тексті. Протилежним до індексу винятковості є індекс концентрації тексту, що вказує частку тексту, яку займають слова, що трапилися 10 разів і більше. де - індекс концентрації тексту, -кількість слів із частотою 10 та більше, — кількість слів у всьому тексті: Виявлено, що текст казки має коефіцієнт зв’язності 0,77, а текст наукової статті - 3,0, тобто зв’язність у другому тексті у 3,9 разів сильніша, ніж у першому.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.) |