АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Информационная энтропия

Читайте также:
  1. IV. ИНФОРМАЦИОННАЯ ЧАСТЬ
  2. Olgerd Символы в сновидениях и информационная безопасность
  3. U-внутренняя энергия, H- энтальпия, p-энтропия, G-энергия Гиббса
  4. Автоматизированная информационная система для гостиниц «Отель- Симпл»
  5. Бухгалтерский учет как информационная система.
  6. Вопрос 3. Бухгалтерская отчетность – информационная основа ЭА.
  7. вопрос. Информационная система управления. Основные классификационные признаки автоматизированных информационных систем.
  8. ВТОРОЕ НАЧАЛО ТЕРМОДИНАМИКИ. ЭНТРОПИЯ. ЗАКОН ВОЗРАСТАНИЯ ЭНТРОПИИ.
  9. Вычисление теплового потока. Энтропия
  10. Информационная база анализа затрат на качество продукции.
  11. Информационная база для анализа денежных потоков
  12. Информационная база для курсового проектирования

Как уже отмечалось выше, в 20-х гг. прошлого века инженеры-связисты предложили за отправную точку для информационной оценки событий принимать их неопределенность и количественно характеризовать степень неопределенности события логарифмом от числа возможных исходов события.

Пусть имеется источник с n -равновероятными исходами сообщений. В этом случае можно говорить о том, что неопределенность одного исхода находится в некоторой функциональной зависимости от количества возможных исходов: H = f (n).

Каковы логические посылки для выбора данной функции?

1. С увеличением числа возможных исходов неопределенность должна возрастать.

2. При n = 1, когда возможен только один исход, опыт приобретает априорную определенность и его неопределенность должна обращаться в ноль.

3. Логично считать, что неопределенность сложного опыта, заключающегося в одновременном выполнении двух опытов в двух независимых друг от друга источниках, должна быть больше, чем неопределенность каждого из этих опытов, так как к неопределенности одного из них добавляется неопределенность другого. Желательно, чтобы неопределенности составляющих опытов суммировались. Т.е. функция Н должна обладать свойством аддитивности.

Можно показать, что одновременно этим условиям удовлетворяет только логарифмическая зависимость:

если n – число возможных сообщений, то неопределенность, приходящаяся на одно сообщение, определяется логарифмом общего числа возможных сообщений: H = log n;

если существуют два независимых источника, которые содержат n1 и n2 возможных сообщений, то общее число возможных сообщений n = n1 ´ n2, а неопределенность сложного опыта g, состоящего из двух независимых опытов a и b с количествами равновероятных исходов n1 и n2, измеряется величиной:

 

Н(g) = log (n1 ´ n2) = log n1 + log n2 = Н(a) + Н(b).

 

В приведенных выражениях для определения количества информации логарифмирование можно производить по любому основанию, однако наиболее удобно (и в настоящее время общепринято) использовать логарифмы по основанию два. В дальнейшем изложении данное условие не будет специально оговариваться, и везде будут использоваться логарифмы двоичные.

При n = 2 приходим к единице измерения неопределенности H = log2 2 = 1, получившей название двоичной единицы или бит (bit) «binary unit» или в компьютерной интерпретации – «binary digit» – двоичный разряд. Иными словами, двоичная единица – есть единица измерения степени неопределенности, представляющая неопределенность, которая содержится в одном опыте, имеющем два равновероятных исхода.

Так как в двоичной системе счисления каждый разряд числа с равной вероятностью может принимать значения 0 или 1, то соответственно и количество информации, приходящееся на один двоичный разряд (двоичную цифру), оказывается равным 1 биту. При обработке информации в машинах, ради удобства представления слов в виде совокупности неделимых частей некоторой стандартной длины в качестве таких частей выбраны 8-разрядные порции. Поэтому наряду с битом получила распространение укрупненная единица – байт, равный 8 битам. Кроме того, для измерения больших объемов информации широко используются более укрупненные единицы количества информации: килобит (К бит) и килобайт (К байт), а также мегабит (М бит) и мегабайт (М байт). Причем приставка «кило» условно обозначает не 1 тыс., а 210 = 1024 бит (байт), а «мега» — не 1 млн., а 220 = 1 048 576 бит (байт). Емкости памяти современных компьютеров уже измеряются гига- и терабайтами.

 

Недостаток структурного метода определения количества информации заключается в том, что при его использовании никак не учитывается различная вероятность поступления сообщений от источника. Между тем очевидно, что этот фактор должен влиять на количество полученной информации.

В перечисленных примерах вероятность поступления того или иного сообщения одинакова. Но на практике подавляющее число источников характеризуется разной вероятностью происходящих в них событий и, следовательно, не одинаковой вероятностью появления сообщений об этих событиях.

Рассмотрим пример: в нашем распоряжении есть две коробки, в каждой из которых имеется по 1000 шариков. Будем считать событием извлечение шарика из коробки. Совершение события снимает его неопределенность.

Пусть в одной коробке находится 999 черных и 1 белый шар; а в другой по 500 черных и белых. В этом случае сообщение об извлечении черного шара из первой коробки практически не несет информации, т.е. количество информации приближается к нулю. Во втором же случае, когда предсказать, какого цвета шарик будет извлечен, гораздо сложнее, сообщение о свершенном событии несет значительно больше информации.

Т.е. существует объективная необходимость в численной оценке степени неопределенности процессов с разной вероятностью исходов и разработке соответствующего математического аппарата.

Получаемая информация приводит к снятию некоторой априорной (имеющейся до опыта) неопределенности. Поэтому можно считать, что в первом случае, источник сообщений был для получателя почти полностью определенным, так как он, даже не осуществляя опыта, знал, что извлечет черный шар. Сообщение об извлечении черного шара несет в себе количество информации, близкое к нулю. А так как вероятность таких сообщений близка к единице, то и среднее количество информации на одно сообщение будет весьма мало. Во втором же случае, когда предсказать исход опыта невозможно, сообщение о событии несет значительно большее количество информации для получателя. Данные соображения указывают на необходимость учитывать при определении количества информации не только количество разнообразных сообщений, которые можно получить от источника, но и вероятность получения тех или иных сообщений (т.е. вероятностные характеристики источника). Именно они положены в основу статистического подхода к определению количества информации, предложенного К. Шенноном в 1948 г. и получившего самое широкое распространение при определении среднего количества информации, которое содержится в сообщениях от источников самой различной природы.

По Шеннону мера количества информации базируется на понятии информационной энтропии события и оценивает статистическую структуру сообщения, отвлекаясь от его содержания и полезности информации. Каждое событие характеризуется неопределенностью, зависящей от конечного числа возможных исходов и вероятности каждого из них.

 

Приведенное выше выражение H = log n можно записать в виде:

 

H = n ´ 1/n ´ log n = n ´ (-1/n ´ log 1/n),

 

где 1/n = P – вероятность любого из n равновероятных исходов опыта; т.е.

 

H = n ´ (-P ´ log P).

 

Пусть опыт a характеризуется таблицей вероятностей (табл.1).

 

Таблица 1

Вероятности исходов опытаa

 

Исходы опыта А1 А2 Ai An
Вероятности исходов PA1 PA2 PAi PAn

 

Тогда меру неопределенности такого опыта можно записать:

 

Н(a) = - PA1 ´ log P A2 - P A2 ´ log P A1 -... - P An ´ log P An

или

n

Н(a) = - S (PAi ´ log P Ai).

i = 1

Эту величину называют энтропией опыта a. Энтропия – это мера степени неопределенности, одно из базовых понятий классической теории информации.

Анализ данного выражения позволяет сделать следующие выводы:

· любое слагаемое в этой формуле всегда положительно, так как для любого исхода всегда справедливо неравенство: 0 £ PAi £ 1, следовательно, log PAi всегда отрицателен и, таким образом, энтропия любого события всегда положительна, т. е. Н ³ 0;

· может быть строго математически доказано, что энтропия опыта равна нулю лишь в том случае, когда одна из вероятностей PAi равна единице, а все остальные равны нулю, т.е. когда исход опыта не содержит никакой неопределенности;

· наибольшей неопределенностью среди всех опытов, имеющих n исходов, характеризуется опыт, у которого все исходы равновероятны. Энтропия опыта с равновероятными исходами будет максимальной.

Данные выводы могут быть проиллюстрированы на примере зависимости энтропии опыта с двумя возможными исходами (n = 2) как функции вероятности одного из исходов P. В этом случае вероятность другого исхода будет тогда равна (1 - P), а соответствующее выражение для энтропии будет иметь вид:

 

H(p) = - p ´ log p - (1 - p) ´ log (1 - p).

 

На рис. 1. приведен график этой Н(р) для значений р в пределах от 0 до 1. Из графика видно, что при вероятности одного из исходов, равной 0 (и, следовательно, вероятности другого исхода, равной 1), и при вероятности первого исхода, равной 1 (и вероятности второго исхода, равной 0), энтропия Н опыта обращается в нуль, а при равной вероятности обоих исходов (р = 0,5) энтропия опыта достигает максимальной величины, т. е. равна 1.

 

 

Рис. 1. График зависимости Н(р) опыта с двумя возможными исходами от вероятности одного из исходов р

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.007 сек.)