АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Как можно обнаружить дубликаты-повторы в хронике

Читайте также:
  1. SCADA. Назначение. Возможности. Примеры применения в АСУТП. Основные пакеты.
  2. V. НАМЕРЕНИЯ И ВОЗМОЖНОСТИ СССР
  3. VI. РЕАЛЬНЫЕ И ПОТЕНЦИАЛЬНЫЕ НАМЕРЕНИЯ И ВОЗМОЖНОСТИ США
  4. А можно ли так работать с опухолью?
  5. А) спрос на определенный товар увеличивается пропорционально росту дохода; - возможно
  6. АКУПУНКТУРА: НОВЫЕ ВОЗМОЖНОСТИ
  7. Алгоритм получения рейтинговой оценки также может быть модифицирован. Вместо формулы, рассмотренной выше, можно использовать одну из нижеследующих
  8. Анализ структуры реализации возможностей компании и состояния действующей АЗС
  9. Аналітичний спосіб оцінки конкурентоспроможності підприємства.
  10. Анатомо-физиологические возможности детей 13 — 15 лет
  11. Аргументы против возможности движения
  12. Асфальт нового поколения, или что можно сделать из покрышки

Методика обнаружения дубликатов (А. Т. Фоменко, [6], [18]). Следуя работам [1]…[8], сформулируем следствие принципа дублирования частот для хроник, содержащих повторы (дубликаты).

Этот принцип позволяет предложить метод выявления «скрытых» дубликатов, которые из-за существенных различий в подаче материала не заметны при смысловом восприятии текста. Описанная ниже методика является с некотором смысле частным случаем предыдущей, но ввиду ее важности для датировки, мы выделим ее как самостоятельный прием обнаружения дубликатов.

Пусть интервал времени (А, В) – от года А до года В, – описан в хронике Х, разбитой на главы-поколения, которые мы обозначаем Х(Т), где Т – номер поколения. Предположим, что в целом главы-поколения Х(Т) в тексте Х занумерованы хронологически верно, за одним лишь исключением: среди них есть два дубликата, то есть две главы, помещенные в разных частях хроники Х, но говорящие об одном и том же поколении, по сути дела повторяющие друг друга.

Рассмотрим простейший случай, когда оба дубликата тождественны, то есть одна и та же глава-поколение встречается в тексте Х два раза – один раз с номером Т0, а второй раз с номером С0.

Ясно, что графики К(Т0, Т) и К(С0, Т), определение которых было дано выше, имеют в этом случае вид, качественно показанный на рис. 4.

В самом деле, все имена впервые появившиеся в главе с номером Т0 (первой в паре глав-дубликатов) повторяются затем еще раз в главе с номером С0 (второй главе этой пары). Поэтому частота употребления «имен главы Т0» в последующих главах хроники Х скачком возрастет, когда при движении слева направо по оси абсцисс мы дойдем до номера С0.

График К(Т0, Т) будет иметь в точке С0 характерный всплеск, говорящий о появлении в тексте дубликата главы с номером Т0.

Что же касается графика К(С0, Т), то ясно, что все значения К(С0, Т) просто равны нулю, так как глава Х(С0), являясь точным повтором уже бывшей главы Х(Т0), не содержит ни одного нового имени (все ее имена уже появились в Х(Т0)) – см. рис. 4.

Первый график на рис. 4 явно не удовлетворяет принципу затухания частот (так нет монотонного убывания справа от Т0).

Следовательно, для восстановления правильного хронологического порядка глав следует переставить главы-поколения в хронике Х так, чтобы добиться соответствия с теоретическим графиком (рис. 1). Ясно, что наилучшее совпадение с теоретическим графиком получится, если мы поместим главы-дубликаты Х(Т0) и Х(С0) рядом или просто отождествим их.

Итак, если среди глав-поколений некоторой хроники Х обнаружились две главы Х(Т0) и Х(С0), для которых их графики К(Т0, Т) и К(С0, Т) имеют вид приблизительно как на рис. 4, то эти главы являются дубликатами (в рамках рассматриваемой модели). Скорее всего, эти главы говорят об одних и тех же событиях и их следует отождествить.

Все сказанное переносится на случай, когда в хронике Х содержится три и более дубликатов.

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)