|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Формулы ШеннонаРавномерное распределение имеет наибольшую энтропию среди всех распределений с данным числом исходов. Предложенный Шенноном способ измерения количества информации, содержащейся в одной случайной величине относительно другой случайной величины лежит в основе теории информации. Он приводит к числовой записи количества информации. Для ДСВ (дискретных случайных величин) X и Y, заданных законами распределения P(X = Xi) = pi, P(Y = Yi) = qj и совместным распределением P(X = Xi, Y = Yi) = pij, количество информации, содержащейся в X относительно Y, равно Для НСВ (непрерывных случайных величин) X и Y, заданных плотностями распределения вероятностей px(t1), py(t2) и pxy(t1, t2), аналогичная формула имеет вид Очевидно, что и, следовательно, Пример использования энтропии Шеннона. Энтропия ДСВ – это минимум среднего количества бит, которое нужно передавать по каналу связи о текущем значении данной ДСВ. Рассмотрим пример (скачки). В заезде участвуют 4 лошади с равными шансами на победу. Введем ДСВ X, равную номеру победившей лошади. Здесь HX = 2. После каждого заезда по каналам связи достаточно будет передавать два бита информации о номере победившей лошади. Кодируем номер лошади следующим образом: 1-00, 2-01, 3-10, 4-11. Если ввести функцию L(X), которая возвращает длину сообщения, кодирующего заданное значение X, то м.о. ML(X) – это средняя длина сообщения, кодирующего X. Можно формально определить L через две функции L(X) = len(code), где code(X) каждому значению X ставит в соответствие некоторый битовый код, причем, взаимно однозначно, a len возвращает длину в битах для любого конкретного кода. В этом примере ML(X)=HX. Пусть теперь ДСВ X имеет следующее распределение Тогда Закодируем номера лошадей: 1-0, 2-10, 3-110, 4-111, - т.е. так, чтобы каждый код не был префиксом другого кода (такое кодирование называется префиксным). В среднем в 16 заездах 1-я лошадь должна победить 12 из них, 2-я – в 2-х, 3-я в 1-м и 4-я – в одном. Таким образом, средняя длина сообщения о победителе равна (1*12+2*2+3*1+3*1)/16 = 1.375 бит/сим. Или м.о. L(X). Действительно, L(X) сейчас задается следующим распределением вероятностей: P(L(X)=1) = ¾, P(L(X)=2) = 1/8, P(L(X)=3) = 1/8. Следовательно, M(L(X)) = ¾+2/8+3/8=11/8 = 1.375 бит/сим. Таким образом, ML(X)>HX. Может быть доказано, что более эффективного кодирования для рассмотренного случая не существует. То, что энтропия Шеннона соответствует интуитивному представлению о мере информации, может быть продемонстрировано в опыте по определению среднего времени психических реакций. Опыт заключается в том, что перед испытуемым человеком зажигается одна из N-лампочек, которую он должен указать, Проводится большая серия испытаний, в которых каждая лампочка зажигается с определенной вероятностью. Оказывается, среднее время, необходимое для правильного ответа испытуемого, пропорционально величине энтропии , а не числу лампочек, как можно было подумать. В этом опыте предполагается, что чем больше информации будет получено человеком, тем дольше будет время ее обработки и, соответственно, реакции на нее. Семантическая мера информации Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя. Тезаурус - это совокупность сведений, которыми располагает пользователь или система. В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя SР изменяется количество семантической информации IС, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 1. Рассмотрим два предельных случая, когда количество семантической информации IС равно 0: при SР = 0 пользователь не воспринимает, не понимает поступающую информацию; при SР → ∞ пользователь все знает, и поступающая информация ему не нужна. Рис. 1. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса Максимальное количество семантической информации Iс потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом SР (SР=SР opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного. При оценке содержательного аспекта информации необходимо стремиться к согласованию величин S и SР. Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему: Функции меры семантической информации. В 50-х годах XX века появились первые попытки определения абсолютного информационного содержания предложений естественного языка. Шеннон однажды заметил, что смысл сообщений не имеет никакого отношения к его теории информации, целиком построенной на положениях теории вероятностей. Но его способ точного измерения информации наводил на мысль о возможности существования способов точного измерения информации более общего вида, например, информации из предложений естественного языка. Примером одной из таких мер является функция inf(s)= -log2p(s), где s - это предложение, смысловое содержание которого измеряется, p(s) - вероятность истинности s. Вот некоторые свойства этой функции-меры: 1) если sl => s2 (из s1 следует s2) — истинно, то inf(s1) >= inf(s2); 2) inf(s)>=0; 3) если s — истинно, то inf(s) = 0; 4) inf(sls2) = inf(sl) + inf(s2) <=> p(s1 s2) = p(s1)p(s2), т.е. независимости s1 и s2. Значение этой функции-меры больше для предложений, исключающих большее количество возможностей. Пример: из s1 — “а > 3” и s2 — “а = 7” следует, что s2 => s1 или inf(s2) >= inf(s1); ясно, что s2 исключает больше возможностей, чем s1. Прагматическая мера информации Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Качество информации Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость. Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют: правильность концепции, на базе которой сформулировано исходное понятие; обоснованность отбора существенных признаков и связей отображаемого явления. Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям. Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуемся преобразовать меньший объем данных. Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений. Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя. Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации. Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного со временем решения поставленной задачи. Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности. Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.007 сек.) |