АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция
|
Глава 3. МАТРИЦЫ СВЯЗЕЙ ДЛЯ ХРОНОЛОГИЧЕСКИХ СПИСКОВ ИМЕН
1. КАК УЗНАТЬ -- КАКИЕ ИМЕННО ЧАСТИ ЛЕТОПИСИ ЯВЛЯЮТСЯ ДУБЛИКАТАМИ? В предудущей главе с помощью гистограмм частот разнесенийсвязанных имен проверялась гипотеза об отсутствии дубликатов вданном хронологическом списке имен. В тех случаях, когда присутствие дубликатов было обнаружено,определялись типичные сдвиги между дубликатами в списке. Однакометод гистограмм частот связанных имен не дает прямого ответа наследующий основной вопрос: КАКИЕ ИМЕННО ЧАСТИ СПИСКА ЯВЛЯЮТСЯ ДУБЛИКАТАМИ И В КАКОЙМЕРЕ? Напомним, что в соответствии с понятием слоистой хроники,два отрезка хронологического списка называются ДУБЛИКАТАМИ, еслиони содержат соответственно ДУБЛИРУЮЩИЕ ДРУГ ДРУГА СЛОИ. В данной главе мы опишем метод, позволяющий отвечать на этотвопрос. Результатом его применения к историческомухронологическому списку будет являться так называемая ``МАТРИЦАСВЯЗЕЙ'' (фрагментов) данного списка. Это -- КВАДРАТНАЯ ТАБЛИЦА,показывающая в какой мере те или иные отрезка списка именявляются дубликатами друг друга ("связаны'' между собой). Мы уже вкратце описали идею метода, пользуясь модельнойзадачей о колоде карт (см. главу 1). Проведем теперь этирассуждения уже не для модельной задачи, а для РЕАЛЬНЫХхронологических списков. Пусть имеется список имен Х, который может содержать ошибки,пропуски и (или) дубликаты. НЕИЗВЕСТНЫЙ НАМ ИСТИННЫЙ СПИСОК ИМЕН, лежащий в основереального списка Х, обозначим через Y. Таким образом, Y -ВООбРАЖАЕМЫЙ список имен, содержащий полные неискаженные данные(скажем, об именах правителей данного государства) длядлительного исторического промежутка времени I_Y. РЕАЛЬНЫЙ список имен Х, который находится в нашемраспоряжении является ИСКАЖЕНИЕМ, ``зашумлением'' списка Y свозможной потерей доли информации. Предположим, что промежуток времени I_Y был описан МНОГИМИлетописцами -- очевидцами или современниками происходящихсобытий. Каждый из них составлял свою короткую летопись Z_i посовременным ему событиям. Поскольку мы изучаем сейчас не весьтекст летописи, а только имена, извлеченные из нее, то можемсчитать (для удобства), что каждый летописец составлял некийкороткий хронологический список имен, который мы также обозначимчерез Z_i. Если промежуток времени I_Y описывался K летописцами, то воснове наших знаний о события, происходивших на этом промежутке,лежит K коротких летописей Z_1, Z_2,..., Z_K (включая и утраченныелетописи). Множество этих летописей (коротких хронологическихсписков имен) мы обозначим через {Z_i}. Множество {Z_i} образует некоторое покрытие списка Y.Это покрытие мы будем считать: а) Достаточно плотным, то есть предположим, что каждыйотдельный год из промежутка I_Y описывался не одним, а сразунесколькими летописцами независимо друг от друга. б) Состоящим из уже искаженных -- как-то разреженных иместами ошибочных коротких хронологических списков. В самомделе, даже в своем исходном виде каждая из летописейZ_1, Z_2,..., Z_K упоминала, возможно, не все имена правителей, невсех исторических деятелей, участвующих в событиях. Кроме того,при последующем переписывании и компиляциях появлялись ошибки,пропуски, произвольные вставки и т. п. Для простоты рассуждениймы будем считать все эти ошибки присущими летописям Z_i с самогоначала. Итогом работы по составлению хронологии в ее современномвиде явилась некоторая новая склейка списков Z_i (новоесовмещение их на оси времени), которая и породила известный намхронологический список имен Х. Рассмотрим два отрезка \ВД\А_1, \ВД\А_2 списка имен Х и попытаемсяответить на вопрос: нет ли такой пары Z_i, Z_j короткиххронологических списков из множества {Z_i}, которые в списке Y(в реальности) относились к одному и тому же месту, а в спискеХ оказались ``подклеенными'' к \ВД\А_1 и \ВД\А_2 соответственно? Так же как ив модельном примере с картами (см. главу 1), заключаем, что еслитакая пара есть, то увеличивается вероятность того, что имена из\ВД\А_1 и \ВД\А_2 окажутся близко друг от друга где-то в списке Х (за счеттретьей, ``склеивающей'' летописи Z_m, смешивающей имена из Z_i иZ_j). p3'3'2 2. МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ СВЯЗЕЙ МЕЖДУ ДУБЛИКАТАМИ В ЛЕТОПИСИ Пусть дан хронологический список имен Х. Начиная с этогоместа забудем на время о разбиении списка Х на главы. В отличиеот задачи определения ВЕЛИЧИН СДВИГОВ между дубликатами, дляпостроения МАТРИЦЫ СВЯЗЕЙ временна'я шкала в списке неиспользуется. После построения матрицы мы снова воспользуемся еюдля СОДЕРЖАТЕЛЬНОЙ интерпретации результатов. Для уточнения понятий ``отрезок списка'' и ``близость в списке''введем следующие определения. ОПРЕДЕЛЕНИЕ. Для i-го имени a_i в списке имен Х ={a_1,..., a_n} его ОПРЕДЕЛЯЮЩЕЙ ОКРЕСТНОСТЬЮ РАДИУСА k назовемотрезок списка: \ВД\А_{a_i}(k) = \ВД\А_i(k) = \ВД\А_i = {a_{i-k},..., a_{i+k}}, (k<I\Д<\Аp\Д<\Аk\Д1. Ю k_i(k_i- 1) Для уникального имени в списке (то есть при i=j, k_i=1) понятиесвязи такого имени с самим собой не вводится. Поясним выбор нормировки в этом определении. Этанормировка выбиралась так, чтобы связь любой пары имен изсписка Х являлась бы случайной величиной со средним, независящим от выбора этой пары. При этом предполагалось, что вероятностный механизмвозникновения правильного хронологического списка Х таков, чтопри условии, что нам известно все множество имен списка, нонеизвестен их порядок, все перестановки имен (все варианты выбораих порядка) равновероятны. Другими словами, мы вводим следующеепредположение. ПРЕДПОЛОЖЕНИЕ. ЗНАНИЕ ЛИШЬ НЕУПОРЯДОЧЕННОГО МНОЖЕСТВА ИМЕН ПРАВИЛЬНОГОХРОНОЛОГИЧЕСКОГО СПИСКА Х НЕ МОЖЕТ НЕСТИ В СЕБЕ НИКАКОЙИНФОРМАЦИИ О ПОРЯДКЕ СЛЕДОВАНИЯ ЭТИХ ИМЕН В СПИСКЕ Х. В этом предположении справедлива следующая лемма. ЛЕММА 1. Пусть дан правильный хронологический список Х.Предположим, что максимальная кратность имени в этом списке, атакже параметр p (длина связывающей окрестности) много меньшедлины списка Х. Тогда среднее значение ненормированной связи двухимен u_i и u_j, входящих в список Х с кратностями k_i и k_jсоответственно, пропорционально числу З | k_ik_j при iЬj, c(u_i, u_j) = c(k_i, k_j) = { | k_i(k_i-1)/2 при i=j. Ю ДОКАЗАТЕЛЬСТВО. а) Рассмотрим случай iЬj. Схему равновероятных размещенийимен в списке Х можно представить как итог последовательногоразмещения n имен по n местам в списке. При этом, каждое имяравновероятно занимает одно из оставшихся свободными мест.Очередность размещения имен может быть выбрана произвольно, нобудучи выбранной должна быть фиксирована. Поэтому можно считать, что перед размещением k_j экземпляровимени u_j все k_i экземпляров имени u_i уже размещены. Попредположению, k_i, k_j, p \а<\А n (напомним, что n обозначает длинусписка Х). Поэтому числом случаев, когда два экземпляра имени u_iоказались в списке Х рядом (на расстоянии, меньшем, чем p) можнопренебречь по сравнению с общим числом способов размещения k_iэкземпляров имени u_i в списке Х. Представим теперь размещение k_j экземпляров имени u_j в видепоследовательности испытаний Бернулли, причем успехом в одномиспытании будем считать попадание в связывающую окрестность кодному из уже размещенных экземпляров имени u_i. Тогда значениененормированной связи l_0(u_i, u_j) равно числу успехов в этой схемеБернулли. Вероятность успеха в одном испытании при этомпропорциональна числу k_i уже размещенных имен u_i (точнее говоря,пренебрегая влиянием случайного перекрытия связывающихокрестностей этих имен, получаем, что эта вероятность равна2pk_i/n). Общее количество испытаний при этом равно k_j. Среднеечисло успехов (=среднее значение ненормированной связи l_0(u_i, u_j))пропорционально произведению вероятности успеха в одном испытаниина число испытаний, то есть пропорционально k_ik_j. Это и утверждаетсяв лемме. б) Рассмотрим случай i=j. Выберем последовательностьразмещения имен таким образом, чтобы сначала размещались все k_iэкземпляров имени u_i, а затем -- все остальные имена. Пусть первыйэкземпляр имени u_i уже размещен. Вероятность того, что приразмещении второго экземпляра он попадет в связывающуюокрестность к уже размещенному первому экземпляру этого имени,равна 2p/n (здесь мы пренебрегаем вероятностью того, что первыйэкземпляр попал на самый край списка, и захват его связывающейокрестности оказался меньше, чем 2p, по сравнению с вероятностьютого, что это не так). Аналогично, пренебрегая малыми вероятностями перекрытийсвязывающих окрестностей (слагаемыми второго порядка), получаем,что третий экзеипляр имени u_i попадает в связывающую окрестностьк одному из уже размещенных экземпляров с вероятностью 2(2p/n) ит. д. Для i-того экземпляра эта вероятность равно (i-1)2p/n. Введем случайные величины \Вh\А_i (2 \Д<\А i \Д<\А k_i), положив поопределению \Вh\А_i=1 если i-й экземпляр имени u_i при своемразмещении попал в связывающую окрестность к одному из ужеразмещенных (i-1) экземпляров этого имени, и \Вh\А_i=0 иначе. Тогда,согласно приведенным рассуждениям, P{\Вh\А_i=1} = (i-1)2p/n, (2 \Д<\А i \Д<\А k_i). Заметим теперь, что число ``встреч'' имен u_i в списке Х (гдепод встречей понимается попадание пары имен в связывающуюокрестность друг к другу) равняется сумме случайных величин \Вh\А_i: k_i l_o(u_i, u_j) = \ВS\А \Вh\А_i. i=2 Следовательно, математическое ожидание (среднее значение) связиl_0(u_i, u_j) равно k_i k_i 2p M[l_0(u_i, u_j)] = M[ \ВS\А \Вh\А_i] = \ВS\А M[\Вh\А_i] = -- (1+... +(k_i-1))= i=2 i=2 n 2p k_i(k_i-1) = -- --------Д. n 2 Дело в том, что математическое ожидание суммы случайныхвеличин равно сумме их математических ожиданий, а M[\Вh\А_i] = P{\Вh\А_i=1}= (i-1)2p/n.) Лемма доказана. СЛЕДСТВИЕ. Среднее значение связи l(u_i, u_j) двух имен,входящих в правильный хронологический список Х, НЕ ЗАВИСИТ отвыбора пары имен (u_i, u_j) и, следовательно, являетсяХАРАКТЕРИСТИКОЙ СПИСКА Х и параметров модели. Это среднее мы будем обозначать через \Ва\А(Х). Издоказательства леммы следует, что \Ва\А(Х) = 2p/n. Генеральное (теоретическое) среднее \Ва\А(Х) мы будем называтьСРЕДНИМ ПО РАЗМЕЩЕНИЯМ в отличие от эмпирического СРЕДНЕГО ПОМАТРИЦЕ, получаемого усреднением фактических значений связи паримен по всем парам имен, входящих в данный список Х. Последнее название объясняется тем, что значения связи паримен списка естественным образом составляют некоторую квадратуюматрицу. ЗАМЕЧАНИЕ. Сформулированное выше предположение aposterioriподтверждается для реальных правильных хронологических списков(летописей) тем, что для них ЭМПИРИЧЕСКОЕ СРЕДНЕЕ ПО МАТРИЦЕпрактически совпадает с ГЕНЕРАЛЬНЫМ СРЕДНИМ ПО РАЗМЕЩЕНИЯМ \Ва\А(Х)(вычисленным с помощью этого предположения). Если же список содержит дубликаты, то для него, как показалирасчеты, среднее по матрице обычно чуть больше, чем среднее поразмещениям. Но различие между этими величинами было НЕВЕЛИКО для всехрассмотренных нами реальных исторических списков. Это -- отражениетого обстоятельства, что даже в том случае, когда хронологическийсписок имен содержит дубликаты, доля пар-дубликатов среди общегоколичества всех пар определяющих окрестностей, обычно невелика. В соответствии с описанной в главе 1 моделью возникновениядубликатов в хронологический списках (см., например, модельнуюзадачу о колодах карт), введем меру связи двух произвольныхопределяющих окрестностей \ВД\А_r, \ВД\А_s в списке Х. Эта мера отражает количество ``связывающих летописей'' дляданной пары отрезков списка, нормированное таким образом, чтобыпри отсутствии дубликатов в списке, оно сохраняло быприблизительно одно и то же значение для всех пар определяющихокрестностей списка Х. Более точно, мера связи двух отрезков списка подбираласьтаким образом, чтобы в случае правильного списка (который мы, всоответствии со сделанным предположением, рассматриваем какнекоторый случайный элемент) среднее значение этой меры независело бы от выбора конкретной пары отрезков, то есть было быединым для всего списка Х. ОПРЕДЕЛЕНИЕ. Пусть дан хронологический список имен Х ификсированы параметры модели k и p. Назовем СВЯЗЬЮ ДВУХОПРЕДЕЛЯЮЩИХ ОКРЕСТНОСТЕЙ \ВД\А_r и \ВД\А_s списка Х число r+k s+k c \ \ L_0(\ВД\А_r, \ВД\А_s) = -------- l(a_i, a_j). (2k + 1)^2 / / i=r-k j=s-k jЬi Здесь c -- постоянная масштаба, задаваемая из соображенийудобства вычислений (мы брали значение c=25). ЛЕММА 2. Если хронологический список имен Х не содержитдубликатов (является правильным) и выполнены предположенияЛеммы 1, то среднее значение по размещениям для связи L_0(\ВД\А_r, \ВД\А_s)НЕ ЗАВИСИТ от \ВД\А_r и \ВД\А_s и равно c\Ва\А(Х). Доказательство. Утверждение Леммы 2 следует из Леммы 1 и изтого, что среднее значение суммы случайных величин равно сумме ихсредних значений. Заметим, что число слагаемых в двойной сумме,определяющей значение связи L_0(\ВД\А_r, \ВД\А_s), равно множителю (2k + 1)^2,стоящему в знаменателе. Следовательно, среднее значение поразмещениям для связи L_0(\ВД\А_r, \ВД\А_s) равняется среднему значению поразмещениям для связи l(a_i, a_j), умноженному на c, то есть равноc\Ва\А(Х). Лемма 2 доказана. p3'3'4 4. ЗАВИСИМОСТЬ СВЯЗИ $L_0$ ОТ ЧИСЛА ОБЩИХ ИМЕН В ОПРЕДЕЛЯЮЩИХ ОКРЕСТНОСТЯХ Изучим характер зависимости между величиной связи $L_0$ двухопределяющих окрестностей \ВД\А_r и \ВД\А_s и количеством общих имен вэтих окрестностях (с учетом кратности вхождения имен в \ВД\А_r и\ВД\А_s). ОПРЕДЕЛЕНИЕ. ЧИСЛОМ ОБЩИХ ИМЕН двух определяющихокрестностей \ВД\А_r(k) и \ВД\А_s(k) в списке Х (с учетом кратностей)назовем число: r+k s+k \ \ O(\ВД\А_r, \ВД\А_s) = \Вд\А(a_i, a_j), / / i=r-k j=s-kгде \Вд\А(a_i, a_j)=1 если a_i=a_j (то есть имена a_i и a_j одинаковы) иравно нулю иначе. Другими словами, O(\ВД\А_r, \ВД\А_s) -- это число пар из декартовогопроизведения \ВД\А_r\Иx\ВД\А_s, таких, что в паре стоят одинаковые имена. В рассмотренных нами случаях реальных хронологическихсписков, описывающих древнюю и средневековую историю Европы,обнаружилось весьма примечательное обстоятельство: ЗНАЧЕНИЯ L_0(\ВД\А_R, \ВД\А_S) И O(\ВД\А_R, \ВД\А_S) СВЯЗАНЫ МЕЖДУ СОБОЙ ТАКИМОБРАЗОМ, ЧТО ПРИ УВЕЛИЧЕНИИ O(\ВД\А_R, \ВД\А_S) УВЕЛИЧИВАЕТСЯ (ВСТАТИСТИЧЕСКОМ СМЫСЛЕ) И L_0(\ВД\А_R, \ВД\А_S). Этот вывод был получен на основе сравнения гистограмм частотзначений L_0(\ВД\А_r, \ВД\А_s) при условии, что значение O(\ВД\А_r, \ВД\А_s)фиксировано.) Может показаться, что значение связи L_0(\ВД\А_r, \ВД\А_s) увеличиваетсяпри увеличении O(\ВД\А_r, \ВД\А_s) непосредственно за счет общих имен в \ВД\А_r и\ВД\А_s (механизмы, приводящие к такому увеличению даже в правильныхсписках действительно существуют, но они очень слабы). Однако этоне так. Чтобы показать это, введем еще две меры связиопределяющих окрестностей \ВД\А_r и \ВД\А_s в хронологическом списке Х. Пусть дана пара определяющих окрестностей \ВД\А_r и \ВД\А_s в спискеХ. Определим соответствующие РАЗРЕЖЕННЫЕ ОПРЕДЕЛЯЮЩИЕ ОКРЕСТНОСТИследующим образом: \ВД\А'_r= {множество различных имен из \ВД\А_r}; \ВД\А'_s= {множество различных имен из \ВД\А_s}; \ВД\А''_{r, s} = {множество имен из \ВД\А'_r, не совпадающих ни с какими именами из \ВД\А_s}; Таким образом, окрестности \ВД\А_r, \ВД\А'_s и \ВД\А''_{r, s} разрежены такимобразом, что в них не осталось различных имен. Кроме того,окрестность \ВД\А_{r, s} не содержит имен, общих с \ВД\А_s или с \ВД\А'_s. ОПРЕДЕЛЕНИЕ. Положим c \ L_1(\ВД\А_r, \ВД\А_s) = --------Д l(a, b), / |\ВД\А'_r|\Иx\А|\ВД\А'_s| a\ВEД\А_r, b\ВEД\А'_s c \ L (\ВД\А_r, \ВД\А_s) = ----------Д l(a, b). 2 / |\ВД\А''_{r, s}|\Иx\А|\ВД\А'_s| a\ВEД\А''_{r, s}, b\ВEД\А'_s Здесь через |ч| обозначена длина (разреженной) определяющейокрестности, то есть число имен в ней. Легко проверить, что определенная таким образом величинасвязи L_2 НЕ ЗАВИСИТ ОТ ПОРЯДКА определяющих окрестностей: L_2(\ВД\А_r, \ВД\А_s) = L_2(\ВД\А_s, \ВД\А_r). Величина связи L_2(\ВД\А_r, \ВД\А_s) уже не связана напрямую с общимиименами в \ВД\А_r и \ВД\А_s -- эти имена в ее определении вообще неучаствуют. Оказалось однако, что для реальных списков,относящихся к древней и средневековой истории Европы, зависимостьсвязи L_2(\ВД\А_r, \ВД\А_s) от O(\ВД\А_r, \ВД\А_s) остается прежней (такой же, как иописанная выше зависимость L_0(\ВД\А_r, \ВД\А_s) от O(\ВД\А_r, \ВД\А_s)). То же верно идля связи L_1(\ВД\А_r, \ВД\А_s). Итак, в примерах, относящихся к древней и средневековойистории Европы (о них -- ниже) было обнаружено, что в основе двухвнешне не связанных друг с другом величин L_2(\ВД\А_r, \ВД\А_s) и O(\ВД\А_r, \ВД\А_s)лежит некий общий фактор (общая причина), приводящий к ихстатистической зависимости. Таким фактором может являться наличие дубликатоввхронологических списках имен. В самом деле, как было показановыше, дублирующие друг друга определяющие окрестности вхронологическом списке имеют (в среднем) повышенное значениесвязи L_0. То же верно и для связей L_1, L_2. Но с другой стороны, и значение O(\ВД\А_r, \ВД\А_s) для них должно бытьв среднем выше, чем для пар независимых определяющихокрестностей, так как дубликаты иногда (не далеко не всегда!)используют одни и те же имена (точнее: использут одинаковые именачаще, чем недубликаты, что и приводит к повышению значенияO(\ВД\А_r, \ВД\А_s)). Таким образом, присутствие в списке Х дубликатовприводит к прямой зависимости (в статистическом смысле) величиныL_2(\ВД\А_r, \ВД\А_s) от O(\ВД\А_r, \ВД\А_s). Эту зависимость мы и обнаруживаем вупомянутых примерах. ЗАМЕЧАНИЕ. Может показаться, что для различения дубликатов вхронологических списках можно было бы использовать значенияO(\ВД\А_r, \ВД\А_s) с тем же успехом, что и L_0(\ВД\А_r, \ВД\А_s). Отметим, что подсчетO(\ВД\А_r, \ВД\А_s) вычислительных сложностей не представляет какова бы нибыла длина списка (т. к. сложность его вычисления вообще независит от длины списка). Между тем, вычисление связей L_0, L_1 или L_2 для реальныхсписков, которые содержат сотни и тысячи имен, требуетмногочасовых вычислений на современных ЭВМ (сложность ихвычисления пропорциональна квадрату длины списка). Однако, использование O(\ВД\А_r, \ВД\А_s) в качестве меры связиотрезков списка, дает слишком ``зашумленную'' картину и непозволяет, в реальных примерах, надежно определить дубликаты внем. Дело в следующем. Если O(\ВД\А_r, \ВД\А_s) велико, то, как правило,велико и значение L_0, L_1 или L_2. Но обратное верно далеко не всегда. При больших значенияхсвязи L_0, L_1 или L_2 соответствующее значение O(\ВД\А_r, \ВД\А_s) частооказывается небольшим. Это означает, что дубликаты в значительнойдоле случаев используют РАЗЛИЧНЫЕ имена для обозначения одних итех же деятелей (иначе они были бы все видны ``на глаз'').Использование же связей типа L_0 позволяет ``выжать'' изхронологического списка ту информацию о его структуре, которая наглаз не видна и определить дубликаты даже в том случае если всеимена, используемые в них, попарно различны. Для всех рассмотренных нами хронологических списковиспользование связей L_0, L_1 и L_2 приводило к одному и тому жевиду ответа (обнаруживались одни и те же системы дубликатов).Поэтому мы будем иногда говорить просто о связи L, подразумеваяпод этим одну из связей L_0, L_1 или L_2. p3'3'5 5. РАЗЛИЧЕНИЕ ЗАВИСИМЫХ И НЕЗАВИСИМЫХ ПАР ОПРЕДЕЛЯЮЩИХ ОКРЕСТНОСТЕЙ В ХРОНОЛОГИЧЕСКИХ СПИСКАХ ИМЕН Перейдем к описанию способа определения порогов в множествезначений связи $L(\Delta_r, \Delta_s)$, разделяющих зависимые и независимые парыопределяющих окрестностей $\Delta_r, \Delta_s$. Приводимые ниже рассужденияимеют КАЧЕСТВЕННЫЙ характер. Они оправдываются aposteriori, таккак позволяют получить более четкую картину структуры списка. Важно, что наиболее существенные черты этой картиныоказываются (во всех рассмотренных нами реальных примерах)нечуствительными не только к выбору параметров модели $k$ и $p$ (атакже к приведенным выше изменениям в определении самой связи,что уже отмечалось), но и к колебаниям указанных порогов. Пусть дан хронологический список имен Х. Зафиксируем длянего параметры модели $(k, p)$ и построим набор гистограмм частотпоявления значений связи $L_0(\Delta_r, \Delta_s)$ ($L_1$ или $L_2$),при условии, чтозначение $O(\Delta_r, \Delta_s)$постоянно (для каждой из гистограмм оно свое).В рассмотренных нами реальных списках все эти гистограммы имеливид приблизительно как на рис. 28. В КАЧЕСТВЕ ЗНАЧЕНИЯ ПОРОГА, ОТДЕЛЯЮЩЕГО СВЯЗЬ $L_0$ ($L_1$, $L_2$)ДЛЯ НЕЗАВИСИМЫХ ПАР ОПРЕДЕЛЯЮЩИХ ОКРЕСТНОСТЕЙ $(\Delta_R, \Delta_S)$ОТ СВЯЗИДЛЯ ЗАВИСИМЫХ ПАР $(\Delta_R, \Delta_S)$ВОЗЬМЕМ НАИМЕНЬШЕЕ ЗНАЧЕНИЕ, ПРИКОТОРОМ СООТВЕТСТВУЮЩАЯ ГИСТОГРАММА ПАДАЕТ ДО НУЛЯ (ЭТО ЗНАЧЕНИЕДЛЯ КАЖДОЙ ПАРЫ $(\Delta_R, \Delta_S)$,ВООБЩЕ ГОВОРЯ, СВОЕ, Т. К. ОНО ЗАВИСИТ ОТВЕЛИЧИНЫ $O(\Delta_R, \Delta_S)$). Связь, превосходящую такой порог, будем называтьСУЩЕСТВЕННОЙ связью, а связь, не превосходящую его -НЕСУЩЕСТВЕННОЙ связью. ОПРЕДЕЛЕНИЕ. МАТРИЦЕЙ СВЯЗЕЙ $M(k, p, L_i, Х)$, $0\lei\le2$,хронологического списка имен Х называется построенная по этомусписку квадратная верхнетреугольная матрица размера $(n-k)\times(n-k)$,в ячейке $(r, s)$ которой стоит значение$$M_{r, s} = \cases L_i(\Delta_r, \Delta_s), & \text{если связь $L_i(\Delta_r, \Delta_s)$ определяющих} \\ & \text{окрестностей $\Delta_r$ и $\Delta_s$ существенна и $r\le s$;} 0, & \text{в противном случае. } \endcases$$ p3'4'1 Глава 4. ИССЛЕДОВАНИЕ ХРОНОЛОГИИ ОСНОВЕ СТАТИСТИЧЕСКОГО АНАЛИЗА СПИСКОВ ИМЕН
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | Поиск по сайту:
|