Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 629


"Эконометрика", 629 выпуск, 11 февраля 2013 года.

Здравствуйте, уважаемые подписчики!

*   *   *   *   *   *   *

Предлагаем познакомиться с нашей крайней книгой: Орлов А. И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 3: Статистические методы анализа данных. В предыдущем выпуске помещены аннотация, краткое и полное оглавления, предисловие и основная часть введения. В настоящем выпуске размещено окончание введения и первые страницы глав книги. Материал взят со страницы Издательства МГТУ им. Н.Э. Баумана http://baumanpress.ru/books/411/411.pdf. Со сравнению с исходным вариантом (Орлов А.И. Высокие статистические технологии: Статистические методы анализа данных: Учебник. - М.: Институт высоких статистических технологий и эконометрики, 2008 (электронный вариант) http://ibm.bmstu.ru/nil/biblio.html#books-03-hsstatan) текст изменен в ходе подготовки к изданию.

Начинаем публикацию нашей статьи "Новая математико-статистическая хронология: триумф современных компьютерных технологий". В ней более подробно, чем в рассмотренном выше учебнике, рассказано о применении статистических методов в истории.

Все вышедшие выпуски доступны в Архиве рассылки по адресу subscribe.ru/catalog/science.humanity.econometrika.

*   *   *   *   *   *   *

Орлов А. И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 3 : Статистические методы анализа данных. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2012. - 624 с.

(Окончание. Начало - в выпуске No.628 от 4 февраля 2013 г.)

Учебник состоит из трех частей (12 глав). В части I (главы 1-4) рассмотрены проблемы организации выборочных исследований на примере двух конкретных маркетинговых опросов, модели случайных выборок, в том числе гипергеометрическая и биномиальная, методы доверительного оценивания доли и проверки однородности двух биномиальных выборок, модели порождения данных, методы их описания с помощью таблиц и диаграмм, выборочных характеристик и эмпирической функции распределения, непараметрических оценок плотности (в пространствах произвольной природы). Показано, что распределение результатов наблюдений (испытаний, измерений, анализов, опытов), как правило, отличается от нормального распределения. Большое внимание уделено непараметрическим методам анализа статистических данных, методам оценивания параметров и характеристик. Разработаны и изучены одношаговые оценки для замены устаревших оценок максимального правдоподобия. Исследована асимптотика решений экстремальных статистических задач и устойчивость (робастность) статистических процедур. Оценивание для сгруппированных данных построено на основе формулы Эйлера - Маклорена и поправок Шеппарда. Для проверки гипотез разработан метод моментов, реализованный на примере гипотезы согласия с гамма-распределением. Продемонстрирована крайняя неустойчивость параметрических методов отбраковки выбросов, приводящая к выводу о невозможности их научно обоснованного использования. Сформулирована предельная теория непараметрических критериев, опирающаяся на метод приближения ступенчатыми функциями. Разработан метод проверки гипотез по совокупности малых выборок для применения в асимптотике растущей размерности, когда число неизвестных параметров увеличивается вместе с объемом данных. Рассмотрена проблема множественных проверок статистических гипотез, актуальная при разработке высоких статистических технологий анализа данных.

В части II (главы 5-7) приведены конкретные статистические методы анализа данных различных типов. Разобраны методы точечного и доверительного непараметрического оценивания основных характеристик распределения (математического ожидания, медианы, дисперсии, среднего квадратического отклонения, коэффициента вариации), методы проверки однородности характеристик двух независимых выборок, обоснована необходимость использования непараметрического критерия Крамера - Уэлча вместо статистики критерия Стьюдента. Изучены свойства двухвыборочного критерия Вилкоксона, обосновано применение состоятельных критериев проверки однородности независимых выборок. Разработаны методы проверки однородности связанных выборок, в том числе на основе критериев проверки гипотезы симметрии. Перечислены основные постановки многомерного статистического анализа. Рассмотрены линейный (Пирсона) и непараметрические (Спирмена, Кендалла) коэффициенты парной корреляции. Изложена задача восстановления линейной зависимости между двумя переменными на основе непараметрического метода наименьших квадратов, а также основы линейного регрессионного анализа, теории индексов, в том числе индексов потребительских цен, статистические методы анализа динамики, в том числе методы анализа и прогнозирования временных рядов и системы эконометрических уравнений. Включены оригинальные подходы к оцениванию периода и периодической составляющей сигналов.

Часть III (главы 8-12) посвящена вероятностно-статистическому моделированию в различных областях применения [19]. Рассмотрены основные понятия теории статистического моделирования; демографические модели; статистические модели движения товарных потоков в процессе работы склада (модели логистики); статистическое моделирование исторических процессов, позволившее существенно уточнить хронологию древнего мира и средневековья; вероятностно-статистическое моделирование помех, создаваемых электровозами. Описан подход к моделированию взаимовлияний факторов методом Жихарева - Орлова - Кольцова, на основе которого разработана система моделей налогообложения и проанализированы макроэкономические балансовые соотношения. Изучена эконометрическая база метода - моделирование и анализ многомерных временных рядов. Рассмотрены комплекс статистических методов управления качеством, в том числе методы обнаружения разладки с помощью контрольных карт, весьма актуальные не только для организации производства, но и в менеджменте. Проанализированы медико-статистические технологии в научных медицинских исследованиях и развитие статистического инструментария отечественных социологов за последние 30 лет, изложены перспективы применения люсианов, асимптотика квантования и выбор числа градаций в социологических анкетах.

Автор настоящего учебника более 40 лет постоянно занимается статистическими методами. В издание включены теоретические и практические результаты, полученные им в 1970-х гг. и в последние годы. Литературные ссылки помогут углубленно изучить материал. В части 1 учебника помещена краткая информация о деятельности автора как научного работника и преподавателя, о ранее выпущенных им монографиях, учебниках, учебных пособиях.

В отличие от учебной литературы по математическим дисциплинам, в настоящей книге практически отсутствуют доказательства. Однако в нескольких случаях они приведены.

Автор благодарен сотрудникам редакции Издательства МГТУ им. Н.Э. Баумана, членам редколлегии и секции "Математические методы исследования" журнала "Заводская лаборатория", всему коллективу кафедры ИБМ-2 "Экономика и организация производства" МГТУ им. Н.Э. Баумана и заведующему кафедрой профессору С.Г. Фалько за постоянную поддержку проектов по разработке и внедрению организационно-экономических, эконо

метрических и статистических курсов, членам Ученого совета, поддержавшим инициативу о введении статистических методов в учебный процесс, декану факультета "Инженерный бизнес и менеджмент" профессору И.Н. Омельченко за совместные научные исследования, рецензентам - заведующему кафедрой "Системы управления экономическими объектами" Московского авиационного института В.Д. Калачанову и заместителю директора Института проблем управления РАН Д.А. Новикову.

Автор благодарен за помощь в написании гл. 11 сыну А.А. Орлову и жене Л.А. Орловой.

С текущей научной информацией по теории и практике статистических методов анализа данных можно ознакомиться на сайте "Высокие статистические технологии" http://orlovs.pp.ru, а также на странице "Лаборатория экономико-математических методов в контроллинге" http://www.ibm.bmstu.ru/nil/lab.html (сайт научно-учебного комплекса "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана). Достаточно большой объем информации содержит еженедельник "Эконометрика".

Читатели могут сообщать свои вопросы и замечания по адресу Издательства или непосредственно автору по электронной почте Е-mail: prof-orlov@mail.ru.

Литература

1. Орлов А.И. Прикладная статистика. М.: Экзамен, 2006. 671 с.

2. Орлов А.И. Организационно-экономическое моделирование: В 3 ч. Ч.1: Нечисловая статистика. М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. 541 с.

3. Орлов А.И. Эконометрика. Ростов н/Д: Феникс, 2009. 572 с.

4. Математическое моделирование процессов налогообложения (подходы к проблеме)/ А.И. Орлов, М.А. Кастосов, Н.Ю. Иванова и др. М.: Изд-во ЦЭО Минобразования РФ, 1997. 232 с.

5. Орлов А.И. Высокие статистические технологии // Заводская лаборатория. 2003. Т. 69. No. 11. С. 55-60.

6. Орлов А.И. Математическое обеспечение сертификации: сравнительный анализ диалоговых систем по статистическому контролю // Заводская лаборатория. 1996. Т. 62. No. 7. С. 46-49.

7. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория. 1985. Т. 51. No.1. С.60-62.

8. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина "статистика". М.: МГУ, 1972. 46 с.

9. Орлов А.И. О развитии прикладной статистики // Современные проблемы кибернетики (прикладная статистика). М.: Знание, 1981. С. 3-14.

10. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983. 416 с.

11. Плошко Б.Г., Елисеева И.И. История статистики. М.: Финансы и статистика. 1990. 295 с.

12. Кудлаев Э.М., Орлов А.И. Вероятностно-статистические методы исследования в работах А.Н. Колмогорова // Заводская лаборатория. 2003. Т. 69. No. 5. С. 55-61.

13. Орлов А.И. Математические методы исследования в работах Бориса Владимировича Гнеденко // Заводская лаборатория. 2007. Т. 73. No.7. С.66-72.

14. Смирнов Н.В. Теория вероятностей и математическая статистика: Избранные труды. М.: Наука, 1970. 289 с.

15. Kotz S., Smith K. The Hausdorff Space and Applied Statistics: A View from USSR // The American Statistician. November 1988. Vol. 42. No 4. Р. 241-244.

16. Вероятность и математическая статистика. Энциклопедия / Под ред. Ю.В. Прохорова. М.: Большая Российская Энциклопедия, 1999. 910 с.

17. Орлов А.И. Устойчивость в социально-экономических моделях. М.: Наука, 1979. 296 с.

18. Орлов А.И. Организационно-экономическое моделирование: В 3 ч. Ч. 2: Экспертные оценки. М.: Изд-во МГТУ им. Н.Э. Баумана. 2011. 486 с.

19. Неуймин Я.Г. Модели в науке и технике. История, теория, практика. Л.: Наука, 1984. 190 с.

*   *   *   *   *   *   *

Первые страницы глав учебника

Часть I. Основные постановки задач анализа данных

Глава 1. Выборочные исследования

Термин "выборочные исследования" применяют, когда невозможно изучить все элементы представляющей интерес совокупности. Приходится знакомиться с частью совокупности, т. е. с выборкой, а затем с помощью вероятностно-статистических методов и моделей переносить выводы, сделанные при рассмотрении выборки, на совокупность в целом. Выборочные исследования включают в себя способы получения и анализа статистических данных, поэтому составляют важный раздел статистических методов, эконометрики и прикладной статистики [1].

1.1. Организация выборочных исследований

В качестве примера рассмотрим выборочные исследования предпочтений потребителей, которые часто проводят специалисты по маркетингу (изучению рынка).

Оценка функции спроса. Функция спроса часто встречается в учебниках по экономической теории, при этом обычно не рассказывается, как она получена. Однако оценить ее по эмпирическим данным не так уж трудно. Например, можно выяснить ожидаемый спрос с помощью простого приема: узнать у потенциальных потребителей, какую максимальную цену они готовы заплатить за определенный товар. Пусть выборка состоит из 20 опрошенных потребителей, которые назвали следующие максимально допустимые для них цены, руб.: 40; 25; 30; 50; 35; 20; 50; 32; 15; 40; 20; 40; 45; 30; 50; 25; 35; 20; 35; 40.

Упорядочим приведенные значения в порядке возрастания и сведем их в табл. 1.1. В первом столбце указаны номера различных значений, названных потребителями, во...

Глава 2. Описание данных

Выделяют три основные области статистических методов обработки результатов наблюдений - описание данных, оценивание (характеристик и параметров распределений, регрессионных зависимостей и др.) и проверка статистических гипотез.

Величины, используемые при описании данных, применяют на дальнейших этапах статистического анализа -оценивании и проверке гипотез, а также при решении задач, возникающих при применении вероятностно-статистических методов принятия решений, например при статистическом контроле качества продукции и статистическом регулировании технологических процессов.

2.1. Модели порождения данных

Статистические данные - результаты наблюдений (измерений, испытаний, опытов, анализов). Функции результатов наблюдений, используемые, в частности, для оценки параметров распределений и (или) проверки статистических гипотез, называют статистиками (с точки зрения математиков, речь идет об измеримых функциях). Если в вероятностной модели результаты наблюдений рассматривают как случайные величины (случайные элементы), то статистики как функции случайных величин (элементов) являются случайными величинами (элементами). Статистики - выборочные аналоги характеристик случайных величин (математического ожидания, медианы, дисперсии, моментов и...

Глава 3. Оценивание

При применении статистических методов необходимо оценивать параметры распределений, функции распределения и их плотности, зависимости между переменными и другие составляющие организационно-экономических моделей. Часто используют модели на основе параметрических семейств распределений, в которых следует оценить значение параметра распределения. Методы статистического оценивания определяются применяемой моделью. В гл. 3 рассмотрено оценивание параметров, а также оценивание путем решения экстремальных статистических задач, к которым сводятся многие постановки прикладной статистики, и робастные (устойчивые) методы оценивания, в том числе по сгруппированным данным.

3.1. Методы оценивания параметров

Некоторые статистические методы основаны на параметрических моделях. Термин "параметрический" означает следующее: вероятностно-статистическая модель полностью описывается конечномерным вектором фиксированной размерности. Причем размерность не зависит от объема выборки. Далее приведены примеры методов оценивания, используемых в параметрических моделях...

Глава 4. Проверка гипотез

Глава посвящена одному из основных разделов статистических методов - избранным задачам проверки статистических гипотез. Разработан метод моментов, реализованный на примере гипотезы согласия с гамма-распределением. Продемонстрирована крайняя неустойчивость параметрических методов отбраковки выбросов, приводящая к выводу о невозможности их научно обоснованного использования. Изложена проблема множественных проверок статистических гипотез, актуальная при разработке высоких статистических технологий анализа данных.

4.1. Метод моментов проверки гипотез

Как уже было отмечено в гл. 3, к методу моментов относят все статистические процедуры, основанные на использовании выборочных моментов и их функций. В непараметрической статистике на основе выборочных моментов проводится точечное и интервальное оценивание таких характеристик распределения, как математическое ожидание, дисперсия, среднее квадратическое отклонение, коэффициент вариации (см. гл. 5). Для проверки гипотез в непараметрической статистике также используется метод моментов. Пример - критерий Крамера - Уэлча для проверки равенства математических ожиданий по двум независимым выборкам.

В практике применения статистических методов (согласно классическим схемам параметрической статистики) довольно часто возникает необходимость проверки гипотезы о принадлежности функции распределения результатов...

Часть ІІ. Конкретные статистические методы

Глава 5. Статистические методы анализа числовых выборок

Рассмотрено несколько типовых задач анализа числовых данных, часто встречающихся при применении статистических методов в различных областях научных исследований и отраслях народного хозяйства. В настоящей главе выборка моделируется как совокупность независимых одинаково распределенных числовых случайных величин с произвольной функцией распределения.

5.1. Оценивание основных характеристик распределения

Существенная часть алгоритмов статистического анализа данных исходит из предположения о нормальности распределения результатов наблюдений. Как уже было отмечено (см. гл. 2), распределения погрешностей физических измерений, как правило, отличны от нормальных распределений. Вследствие наличия отклонений от нормальности свойства алгоритмов могут в одних случаях изменяться сравнительно слабо, как при проверке гипотезы однородности математических ожиданий для выборок равного объема. В других случаях изменения свойств таковы, что алгоритмы из научных переходят в эвристические. Например, свойства алгоритмов отбраковки выбросов (резко выделяющихся наблюдений) крайне неустойчивы по отношению к отклонениям от нормальности: если зафиксировать правило отбраковки, то крайне неустойчив уровень значимости, а если зафиксировать уровень значимости, то крайне...

Глава 6. Многомерный статистический анализ

В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела статистических методов. Из многих задач многомерного статистического анализа рассмотрены основные задачи корреляции, восстановления зависимости, индексы.

6.1. Коэффициенты корреляции

Термин "корреляция" означает связь. В области статистических методов этот термин обычно используется в словосочетании "коэффициенты корреляции". Рассмотрим линейные и непараметрические парные коэффициенты корреляции как способы измерения связи двух случайных переменных.

Исходные данные - набор случайных векторов (xi,yi), i=1, 2,..., n. Выборочным коэффициентом корреляции, или выборочным линейным парным коэффициентом корреляции Пирсона, называется число...

Глава 7. Статистические методы анализа динамики

Анализ динамики - это анализ временных рядов. Под временными рядами понимают детерминированные или случайные функции времени. Время предполагается дискретным, в противном случае говорят о случайных процессах, а не о временных рядах.

7.1. Методы анализа и прогнозирования временных рядов

Модели стационарных и нестационарных временных рядов. Пусть t = 0, ±1, ±2, ±3,... Сначала рассмотрим временной ряд X(t), который принимает числовые значения (цена на хлеб или курс обмена доллара на рубли).

Обычно в поведении временного ряда выявляют две основные тенденции - тренд и периодические колебания.

Под трендом понимают зависимость X(t) от времени линейного, квадратичного или другого типа, которую выявляют тем или иным способом эмпирического сглаживания (например, экспоненциального) либо модельно-расчетным путем, в частности с помощью метода наименьших квадратов. Другими словами, тренд - очищенная от случайностей основная тенденция временного ряда.

Временной ряд обычно колеблется вокруг тренда, причем отклонения от тренда часто обнаруживают правильность. В основном это связано с естественной или назначенной периодичностью - сезонной или недельной, месячной или квартальной (например, в соответствии с...

Часть III. Вероятностно-статистическое моделирование

Глава 8. Основы вероятностно-статистического моделирования

Рассмотрена устойчивость статистических выводов, разработана общая схема устойчивости и предложен принцип уравнивания погрешностей. Приведены примеры вероятностно-статистического моделирования в демографии, логистике, истории и электротехнике.

8.1. Основные понятия теории вероятностно-статистического моделирования

Модель (обобщенная модель) - создаваемый в целях получения и (или) хранения информации специфический объект (в форме мысленного образа, описания знаковыми средствами либо материальной системы), который отражает свойства, характеристики и связи объекта-оригинала произвольной природы, существенные для задачи, решаемой субъектом [1]. Модели часто описываются словами или формулами, алгоритмами и иными математическими средствами.

Математические модели. Как правило, при более тщательном анализе явления или процесса словесных моделей недостаточно. Необходимо применение сложных математических моделей. Так, при принятии решений в менеджменте производственных систем используются модели:

- технологических процессов (модели контроля и управления);...

Глава 9. Статистические модели динамики

Рассмотрен метод компьютерно-статистического моделирования (далее метод ЖОК) для оценки результатов влияния описывающих ситуацию факторов на итоговые показатели и друг на друга. Такой метод позволяет получать выводы, полезные для управления различными структурами на микро- и макроуровнях - от бригад и предприятий до государства в целом. В методе используется модель многомерного временного ряда, у которой коэффициенты непосредственного влияния факторов друг на друга и начальные условия задаются экспертами.

Метод ЖОК получил название по первым буквам фамилий основных разработчиков - В.Н. Жихарева, А.И. Орлова, В.Г. Кольцова. Опыт практического применения этого метода описан в работах [6, 7]. Метод ЖОК развивает идеи когнитивного подхода при решении слабоструктурированных задач, разработанного в Институте проблем управления РАН [8, 9], но на основе иного математического обеспечения.

9.1. Метод компьютерно-статистического моделирования результатов взаимовлияний факторов

Опишем основные составляющие компьютерно-статистического метода и результаты его практического применения.

1. Определение экспертным путем списка факторов, которые необходимо учитывать при анализе конкретной ситуации. В качестве примера рассмотрим типовое промышленное предприятие...

Глава 10. Статистические модели управления качеством

Одна из наиболее важных областей применения статистических методов - обеспечение качества, основанное на применении статистического моделирования. Статистическим методам управления качеством и посвящена настоящая глава. Приведены общие сведения о месте статистических методов в принятии решений при управлении качеством и сертификации продукции. Рассмотрен статистический контроль качества и продемонстрирована его высокая экономическая эффективность.

10.1. Основы статистического контроля качества

Статистические методы сертификации в России. Методы статистики - именно то средство, которое необходимо изучить, чтобы внедрить управление качеством. Они - наиболее важная составная часть комплексной системы всеобщего управления качеством на фирме. В японских корпорациях все, начиная от председателя совета директоров и до рядового рабочего в цехе, обязаны знать хотя бы основы статистических методов [1].

Сертификация - официальная гарантия поставки производителем продукции, удовлетворяющей установленным требованиям. Поставщики и продавцы должны иметь сертификаты качества на предлагаемые ими товары и услуги. Маркетинг включает в себя работы по сертификации.

Существует несколько уровней сертификации. Говоря о сертификации продукции, могут иметь в виду качество ее...

Глава 11. Статистические модели в медицине

Рассмотрена организация клинико-статистических исследований и экспериментов, приведены примеры применения статистических методов в научных медицинских исследованиях.

11.1. Клинико-статистические исследования

Под клинико-статистическими исследованиями понимают специально организованный сбор и анализ медицинских данных о течении заболеваний у пациентов, о динамике объективных и субъективных показателей их состояния, о реакции на те или иные лечебные воздействия. Исследуются одна или более групп лиц (больных или здоровых), выводы делаются по группам в целом, а не по каждому конкретному пациенту. Цель исследований - перенести выводы, сделанные для выборки, на генеральную совокупность, т. е. клинико-статистическое исследование ориентировано на получение полезных рекомендаций, касающихся тех пациентов, которые попадут в поле зрения врачей после окончания исследования. Таким образом, имеется потенциальное противоречие интересов практикующего врача и научного работника, проводящего клинико-статистическое исследование. Первый заинтересован оказать наилучшую возможную помощь каждому пациенту, а второй разрабатывает рекомендации для будущих больных.

Сбор данных и карта больного. Информация о каждом отдельном пациенте обычно содержится в его истории болезни...

Глава 12. Статистические методы в социологии

Социология (от лат. societas - общество и греч. logos - учение) - наука об обществе как целостной системе и об отдельных социальных институтах, процессах, социальных группах и общностях, отношениях личности и общества, закономерностях массового поведения людей. Среди общественных отношений важное место занимают экономические отношения.

Проанализирована динамика развития статистического инструментария социологов, рассмотрено применение теории люсианов для анализа дихотомических данных, методов анализа сгруппированных данных и принципа уравнивания погрешностей, сделаны полезные выводы для теории управления запасами. Методы социометрии изложены применительно к управлению малыми группами людей.

12.1. Развитие статистического инструментария социологов

Принципиальный прорыв в развитии статистического инструментария произошел в СССР в 1970-е гг. Именно тогда в арсенале отечественных социологов появились теория измерений и теория нечетких множеств, математические методы классификации и многомерное шкалирование, непараметрическая статистика и статистика нечисловых данных.

В дальнейшие десятилетия шло естественное развитие научного аппарата. К сожалению, нельзя утверждать, что в последние годы темпы этого развития усилились. Постепенно...

Учебное издание

Орлов Александр Иванович

ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКОЕ МОДЕЛИРОВАНИЕ

Часть 3

СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ДАННЫХ

Редактор А.С. Водчиц

Технический редактор Э.А. Кулакова

Корректор О.В. Калашникова

Художник Н.Г. Столярова

Компьютерная графика В.А. Филатовой

Компьютерная верстка И.А. Марковой

Оригинал-макет подготовлен в Издательстве МГТУ им. Н.Э. Баумана.

Санитарно-эпидемиологическое заключение

No. 77.99.60.953.Д.003961.04.08 от 22.04.2008 г.

Подписано в печать 23.05.12. Формат 84×108 1/32.

Усл. печ. л. 32,76. Тираж 500 экз. Заказ

Издательство МГТУ им. Н.Э. Баумана.

105005, Москва, 2-я Бауманская ул., д. 5, стр. 1.

E-mail: press@bmstu.ru

http://www.baumanpress.ru

Отпечатано в типографии МГТУ им. Н.Э. Баумана.

105005, Москва, 2-я Бауманская, 5, стр. 1.

E-mail: baumanprint@gmail.com

ISBN 978 5 7038 3566 1 9 785703 835661__

http://baumanpress.ru/books/411/411.pdf

Отдел реализации печатной продукции

телефон: +7 (499) 263-60-45

факс: +7 (499) 261-45-97

http://baumanpress.ru/where_buy/

*   *   *   *   *   *   *

Новая математико-статистическая хронология: триумф современных компьютерных технологий

А.И. Орлов

Введение

Современные информационные технологии нашли широкое применение в науке и технике. В настоящее время любая крупная техническая разработка, любой научный проект делается с использованием сложных математических расчетов, выполнение которых под силу лишь мощным современным компьютерным системам. И поэтому у многих людей сложилось мнение, что "компьютеры - удел технарей", а не гуманитариев, что тем ученым, чьи направления научной деятельности не связаны с техническими системами, например, языковедам или историкам, имеет смысл использовать компьютеры лишь в качестве интеллектуальных пишущих машинок, а помощи от них в своей непосредственной работе ждать не стоит. Но это - неправильное мнение. Использование информационных технологий в различных областях современной науки, как технических, так и гуманитарных, может привести к поистине революционным результатам, подняв качество научных исследований на недосягаемую прежде высоту.

Эта статья посвящена сенсационным результатам, полученным группой академика РАН А.Т.Фоменко при изучении исторических материалов. Только появление современных информационных технологий, способных осуществить обработку огромного количества материала за обозримое время, позволило разработать объективные и строго научные методы исследования таких, казалось бы, не поддающихся математическому анализу материалов, как исторические хроники и повествования. И результаты группы А.Т.Фоменко действительно можно назвать триумфальными, поскольку данные, полученные с помощью математических методов исследования исторических текстов, позволяют решить многие "парадоксы истории", создать новую реконструкцию мировой истории, менее противоречивую и гораздо более логичную, чем ее традиционная версия.

Еще всего лишь двести лет назад определение состава звезд, строения сложных органических молекул, реакций иммунной системы человека казалось совершенно невозможным и фантастическим. Однако сейчас, с изобретением спектрофотометров, электронных микроскопов подобные действия стали едва ли не заурядными, обычными. Изобретение телескопа дало толчок бурному развитию астрономии, микроскопа - биологии, электронная микроскопия привела к новым открытиям в медицинских науках, причем многие ранее существовавшие теории оказались неверными, а многие гипотезы, считавшиеся фантастическими, оказались истиной. А изобретение компьютера позволило, наконец, дать мощнейший инструмент в руки математикам. С помощью же математических методов можно проводить исследования в самых разнообразных областях науки. Более того, с появлением компьютерных технологий стало возможным разработать и применять математические методы анализа нечисловых данных, например, языковых или исторических. Ранее подобные исследования потребовали бы работы сотен людей в течение десятилетий, и, бесспорно, не могли быть проведены.

В данном материале рассказывается о математических методах анализа текстовой информации, находящейся в исторических хрониках (то есть любых повествованиях об исторических событиях, расположенных в порядке их следования по годам) с целью установления времени происхождения того или иного события, позволяющих выявить хроники, рассказывающие разными словами об одних и тех же событиях (так называемые "дубликаты"), а также о результатах применения этих методов при исследовании исторических текстов, описывающих время до восемнадцатого века нашей эры.

Принятая сейчас хронология вызывает вопросы

Казалось бы, все основные исторические события давно описаны, вошли в учебники. Каждый культурный человек имеет достаточно подробное представление о том, как развивалась история. На исторические темы написаны тысячи художественных книг, поставлены сотни спектаклей и кинофильмов. Целая армия историков преподает в школах и вузах, ведет раскопки курганов, расшифровывает берестяные грамоты. Очевидно, они накладывают последние штрихи на полностью сформировавшуюся картину исторического процесса. И никому из пишущей братии не приходит в голову, например, сомневаться в самом существовании татаро-монгольского ига над Русью в XIII-XV вв.

А между тем тут есть о чем поразмышлять. Пишут, что легендарный поход Чингиз-хана начался с создания сорокатысячной армии в монгольских степях. Могло ли так быть, чтобы кочевники создали сорокатысячную армию? Ведь кочевой образ жизни предполагает, что вместе кочует лишь сравнительно небольшая группа - несколько десятков человек, из них десяток воинов, и разные кочевья разделяют десятки километров. Кочевые племена типа монголов - индейцы - жили полтораста лет назад в Северной Америке, но направить в набег они могли лишь несколько десятков воинов. Как и бедуины в Аравии и Сахаре. Чувствуется какая-то неувязка.

Говорят, монголы более 200 лет властвовали над Русью. Монголы - представители желтой расы. Где же следы их пребывания? В России даже татары - и те относятся к белой расе. Где вообще следы великой империи монголов? Нынешние монголы - увы, один из самых отсталых на Земле народов, на его земле нет памятников материальной культуры великой Империи. Опять неувязки.

Нам говорят, что Батый повел на Русь больше ста тысяч всадников. Причем зимой. Сколько же было в его войске лошадей? На одной ехал воин. Другую он держал свежей для боя, она шла без поклажи. На третьей надо везти все, что нужно в походе - походную юрту, запасы еды для себя и лошадей и т.п. А для военной добычи понадобится, наверно, и четвертая. Итак, лошадей было не меньше трехсот-четырехсот тысяч. Как же удавалось прокормить их зимой? На запасы местных жителей вряд ли можно было надеяться. Ясно, что те прятали либо сжигали свои стога. Опять загадка. Особенно если сопоставить с Отечественной войной 1812 г., с осенним отступлением французов из Москвы на Запад. Тогда, как пишет историк Тарле, среди французов были распространены случаи людоедства, вызванные, очевидно, общим недостатком съестных припасов и плохой организацией снабжения.

Если вдумываться в сообщаемые в исторических сочинениях факты, а просто повторять их и отвечать, как заученный урок, то количество недоуменных вопросов быстро растет. Пожалуй, основной из них - как могли погибнуть великие древние цивилизации и наступить "темные века" раннего средневековья, когда достижения предыдущих столетий были практически полностью забыты.

Другой интересный вопрос - как осознать появление "Эпох Возрождения" (Италия, Египет), когда через полторы тысячи лет повторяются основные черты эпохи - язык, одежда, литературный стиль. Например, нам говорят, что сочинения на латыни достигли высокого литературного уровня в Древнем Риме. Читаем - действительно, это так. Затем в средние века уровень владения языком упал, латынь стала "варварской". Никаких литературных опусов, корявые перечни и записки. И вдруг - снова расцвет классической латыни - в века итальянского Возрождения. Сопоставим с нашей историей. Фактически наша культура начинается около двухсот лет назад - с Пушкина, первого поэта, и Карамзина, первого историка. Все, что было до этого, уже трудно воспринимать. Фактически нужен перевод на современный литературный язык. А если отступить еще на 100-200 лет вглубь времен, то чтение превращается в расшифровку текста в буквальном смысле слова. И не только у нас. Язык Шекспира за 300 лет тоже достаточно сильно оторвался от современного английского языка. Можно ли поверить, что мы вдруг перейдем на язык V в. н. э.? Или хотя бы на язык "Слова о полку Игореве"? Можно ли поверить, что мы будем одеваться так, как в Древней Руси? Ответ очевиден. Но как же тогда быть с итальянским Возрождением?

Для того, чтобы поставить ряд недоуменных вопросов, нет необходимости быть историком. Достаточно тщательно сопоставить страницы распространенных учебников. Это сделал, например, чемпион мира по шахматам Гарри Каспаров. Его размышления помещены в качестве предисловия к монографии [1].

Полезно обсудить возражение типа: "Вы не историк, поэтому Вы не вправе рассуждать об истории, критиковать сочинения историков". Кого в нашей стране можно назвать историками? Например, имеющих ученую степень доктора исторических наук. Помнится, в 1970-е годы листал я "Бюллетень ВАК" (Высшей Аттестационной Комиссии), в которой сообщались темы докторских диссертаций по различным специальностям. Докторов-историков защищалось тогда раз в пять больше, чем математиков. Причем типовая тема докторской диссертации по истории звучала так: "Борьба КПСС за построение развитого социализма в Ульяновской области в 1960-1970 гг.". Не будем отрицать пользу таких работ. Во всяком случае, в них фиксировалась недавняя история. Однако ясно, что подобные историки с докторскими степенями и академическими званиями не могут сказать ничего более разумного о событиях прошлых веков, чем "простые граждане" вроде Г.Каспарова.

Есть, конечно, специалисты, более достойные звания историка, например, археологи. Однако они, как правило, работают в достаточно узких временных и пространственных рамках, заданных классической историей. Поэтому анализ кадров историков дает парадоксальный результат - практически нет специалистов, с которыми можно было бы на общепринятом научном уровне, без эмоций и ругани, обсуждать проблемы истории и хронологии в целом. Другими словами, при анализе этих глобальных проблем все мы - и хранящие под простынями диплом доктора исторических наук, и обычные граждане - находимся в одинаковом положении. Более того, мы, любители истории с естественнонаучным образованием и опытом работы, чувствуем преимущество перед историками-профессионалами, - у нас нет предвзятых мнений, но есть опыт научного мышления.

Откуда мы знаем, когда происходили древние события?

Всем нам рассказывали в школе о событиях, которые произошли тысячи лет назад. А откуда такая уверенность, что, например, битва при Марафоне между греками и персами была именно в 490 г. до н.э., как об этом однозначно сказано в учебнике?

Если задать такой вопрос учителю средней школы, он сошлется на свои вузовские учебники. Профессор университета - автор учебников - отошлет к немногочисленным специалистам по античности и книгам последних 200 лет. В конце концов мы доберемся до трех основных видов источников по древней истории: старинным текстам, остаткам материальной культуры и - психологически самое важное! - сложившейся традиции.

Древние тексты требуют критического анализа. Их не всегда легко перевести на современный язык. Более того, многие тексты не удается расшифровать. Они отнюдь не всегда точны и беспристрастны. Например, они отражают точку зрения победившей стороны. И совершенно ясно, что современник Марафонской битвы не может ее дату отсчитывать от Рождества Христова, которое - по традиционной хронологии - будет позже примерно на 500 лет! Очевидно, эта дата - 490 г. до н.э. - поставлена теми, кто составлял глобальную хронологию, а не современниками. А составители могли ошибаться. Могли и фальсифицировать даты, если это было кому-то выгодно. Это касается и даты самого "древнего текста".

На археологических остатках тоже не написано, к какому времени они относятся. Можно указать верхний слой раскопок, средний, нижний, то есть выяснить, что из найденного в данном месте относится к более раннему времени, а что к более позднему. Уже при сопоставлении с раскопками в других местах возникают проблемы: похоже или не похоже, можно отнести к одному и тому же времени или нет. Тут часто решает традиция.

Бесспорно совершенно, что конкретную дату добытых археологами предметов в подавляющем большинстве случаев установить невозможно. Это утверждение пытались поставить под сомнение, ссылаясь на различные естественнонаучные методы датировки. Наиболее известным таким методом является радиоуглеродный анализ. К сожалению, его погрешности велики (плюс-минус 1000 лет!), так что все известные естественнонаучные методы датировки практически бесполезны (подробнее см. [2, с.33-39]).

Сложившаяся традиция - огромная сила. Именно она - основное препятствие на пути внедрения исправленной хронологии. Вспомним, как появилась традиция. Около 200 лет назад император России дал задание одному из лучших литераторов подготовить изложение истории России для широкого читателя. А широкий читатель тогда - несколько тысяч дворян и лиц духовного звания, с вкраплением отдельных разночинцев. Раньше исторические тексты были, как мы сказали бы теперь, секретными документами, хотя время от времени и выпускались сочинения от имени Татищева и Ломоносова, почему-то после смерти авторов.

И появилась "История" Карамзина. И одновременно вслед за Царскосельским лицеем была создана сеть гимназий во всех губернских городах, другие учебные заведения. Во всех преподавалась российская история - по учебникам на основе Карамзина. Так и пошло. Иногда менялись акценты, особенно в 20-е годы ХХ в., но фактическая основа не менялась.

Традиция преподавания всеобщей и российской истории, с одной стороны, молода - ей не более 200 лет. С другой стороны, за это время сменилось примерно 8 поколений учеников, а этого вполне достаточно, чтобы традиционная хронология стала выглядеть единственно возможной, единственно правильной.

Пример возможности ошибочной датировки

Недавно (в 2000 г.) я убедился, насколько трудно составить правильную хронологию, правильную хронику событий. Мне надо было перенести свой архив с старого компьютера "Макинтош" на новый Pentium. Всего-то около тысячи файлов. Среди них были "гнезда", посвященные подготовке одного и того же документа (книги, статьи или отчета) - наборы файлов под сходными названиями и с схожим содержанием, отличающиеся лишь некоторыми деталями - исправлениями и дополнениями. К сожалению, я не всегда уничтожал промежуточные версии. Впрочем, не всегда правильно сказать "к сожалению". Иногда окончательную версию приходилось сокращать, и ряд нужных соображений оставался только в промежуточном тексте.

Я перенес архив с помощью копирования файлов на дискеты и обмена дискетами между компьютерами, благо что для этого есть специальные программы и конверторы. Пришлось потрудиться, но устанавливать сетевые карты и конфигурировать сеть заняло бы гораздо больше времени, поэтому я решил обойтись традиционным способом переноса файлов. Обратите внимание, что после копирования файлов с дискет на Pentium даты создания файлов изменились - теперь в свойствах файлов хранились даты их появления на РС, а не первоначального создания на "Макинтоше". И вот пришел день, когда мне понадобилось обратиться к одному из "гнезд", чтобы отредактировать статью в соответствии с рецензией, пришедшей из редакции журнала. Просмотрел "гнездо" - нашел два текста с одинаковым названием. Объемы близки. В свойствах файлов гордо значится, что они созданы одновременно - в тот самый день, когда я копировал их с дискет на РС. Информация о дате последнего изменения файлов помочь не могла - при переносе файлов между двумя различными платформами они подвергаются специальной конвертации, и тем самым изменяются в тот же день и час, когда и переносятся. Какой же текст окончательный, а какой предварительный? Так и не смог определить. Стал работать с одним из них. И, видимо, ошибся. Думаю так, поскольку в компьютерном тексте были опечатки, исправленные в статье, побывавшей в редакции.

Таким образом, в 2000 г. я не смог понять, какой из двух компьютерных текстов окончательный, а какой является лишь заготовкой, - при всех имеющихся в операционной системе и программах средствах для определения даты создания. Насколько же труднее было сравнивать тексты хроник пятьсот лет назад! Да, конечно, я мог бы писать в каждом документе дату и время, но при написании статей мне это не было надо, а потом, после переноса, уже было поздно.

Предположим теперь, что кто-то захочет составить собрание моих сочинений на основе памяти моего компьютера. Перед ним сразу встанет проблема "гнезд", в которых находятся последовательные версии одного и того же документа, имеющие одну и ту же дату создания и изменения. Лучше всего было бы найти окончательную версию и включить ее в собрание сочинений, а остальные проигнорировать. Но это может быть нелегким делом, ведь я сам, автор документа, не могу указать окончательную версию, по крайней мере быстро. Возникает желание опубликовать все версии. Кстати, именно так я поступил при переносе архива. Ведь я не стал проводить отбор, а отложил проблему и перенес все файлы.

Предположим теперь, что публикатор упорядочит файлы не по "гнездам", а по какому-либо иному признаку - по названиям, по объему или как-либо еще. И вот мы получаем сборник текстов, некоторые из которых близки по смыслу. А именно, близки те, что "произошли" из одного "гнезда". Но читатель-то не знает, какие тексты имеют общее происхождение, а какие - нет! Поэтому он скорее всего подумает, что у автора много раз возрождался интерес к одной и той же теме, автор, так сказать, переживал "период возрождения".

Таким образом, проблемы построения правильной хронологии легко промоделировать на примере типовых проблем рядового пользователя компьютера.

Сложившаяся традиция: истоки

Объективный анализ первоисточников показывает, что ныне принятая версия всеобщей хронологии исторических событий была сформулирована сравнительно недавно - лишь в начале XVII в. Это - период "смуты" на Руси. А известная всем нам со школы история России подготовлена немецкими специалистами еще на полтораста лет позже - в XVIII в. Недаром она была представлена Карамзину для изложения популярным языком лишь двести лет назад. За подробностями отошлем к многочисленным публикациям группы А.Т.Фоменко (см., например, солидные монографии [1-7]).

Конечно, нынешняя хронология готовилась долго, столетиями. Примерно за триста лет, в XIV - XVI вв. западноевропейскими хронологами была проведена огромная работа, в основных чертах завершенная И.Скалигером (1540-1609) и Д.Петавиусом (1583-1652). Необходимо было сопоставить между собой многочисленные хроники, написанные на разных языках, относящиеся к различным государствам, пользующимися своими собственными системами отсчета времени (от начала очередного царствования, от основания Рима, от первых олимпийских игр, и т.д.). Результат (назовем его хронологией Скалигера) - в наших школьных учебниках.

Могли ли быть допущены ошибки при построении хронологии Скалигера? Конечно, могли, причем по крайней мере по двум причинам. Первая состоит в ошибочной датировке хроник, в неумении различить хроники-дубликаты, говорящие об одних и тех же событиях. Вторая - в сознательном внесении искажений с целью идеологического обоснования тех или иных положений. Например, работа по хронологии шла под патронатом католической церкви, которой было выгодно "удревнить" историю Италии, тем самым поставить ее выше "молодой" Руси. Это - типичный пример информационной войны, которая в средневековье велась не менее интенсивно, чем сейчас, хотя и затрагивала прежде всего элиту.

Сложившаяся традиция: критика

Хронология Скалигера сразу же стала подвергаться критике. Одна из причин - противоречия между данными истории и астрономии. В исторических сочинениях под определенными датами описываются астрономические явления - затмения, расположение планет среди созвездий и т.п. Астрономия - точная наука, и ее методами можно рассчитать возможные даты тех событий, о которых идет речь в исторической хронике. Иногда эти даты несовместимы. Тогда естественным является желание исправить хронологию, перенеся событие в тот момент времени, когда оно астрономически возможно. А за этим событием "тянутся" все с ним связанные.

Наиболее известными критиками хронологии Скалигера являются великий физик и математик Исаак Ньютон (1642-1727) и выдающийся русский ученый-энциклопедист Николай Александрович Морозов (1854-1946), почетный академик АН СССР. В семитомном издании "Христос" (первоначальное название - "История человеческой культуры в естественнонаучном освещении"), выпущенном в 1924-1932 гг., Н.А.Морозов выдвинул и частично обосновал гипотезу о том, что хронология Скалигера искусственно растянута, удлинена по сравнению с подлинной историей. Он обнаружил "повторы в истории", указал на древние хроники, описывающие одни и те же события, но датированные при конструировании скалигеровской хронологии разными эпохами, которые считаются сегодня отделенными друг от друга сотнями и тысячами лет.

Работы И.Ньютона и Н.А.Морозова (и многих иных, менее нам известных - де Арсилла, Ж.Гардуина, Р.Балдауфа, Э.Джонсона и др.) никто не смог опровергнуть. О них предпочли забыть. Их замалчивают, а если человек слишком известен, как Исаак Ньютон - вскользь говорят как о заблуждениях великого ума.

Но не у всех короткая память, не все поддаются соблазну стандартных мыслей. Помню блестящую лекцию проф. М.М. Постникова на 16-м этаже Главного корпуса МГУ в начале 70-х годов, посвященную работам Н.А.Морозова. И вот уже 30 лет слежу за развитием работ по новой компьютерной хронологии.

В 1970-е годы - еще на тех, старых больших машинах - были получены основные результаты. В течение следующего десятилетия, в 1980-е годы специалисты по прикладной статистике неоднократно и подробно обсуждали новые математические методы анализа летописей и других исторических источников, разработанные группой академика РАН А.Т.Фоменко. Затем в 1990-е годы опубликована серия более чем из 10 монографий, описывающая результаты применения этих методов для широкого круга читателей (некоторые из этих монографий указаны в списке литературы). Оказывается, история шла совсем не так, как об этом повествуется в популярных ныне учебниках. В трудах группы А.Т.Фоменко восстановлены основные черты реальной хронологии. Можно, конечно, называть новую хронологию гипотезой, но во всяком случае эта гипотеза более обоснована, чем альтернативная, даваемая в стандартных учебниках. Новая компьютерная математико-статистическая хронология всеобщей и российской истории, построенная группой академика РАН А.Т.Фоменко, оказалась полезной и для обсуждения современных экономических и политических проблем взаимоотношений России и Запада на пороге XXI века.

Компьютерный анализ исторических текстов

Группа А.Т.Фоменко разработала и применила новые математико-статистические методы анализа исторических текстов (хроник). Эти методы основаны на интенсивном использовании компьютерных технологий, которых, конечно, не было ни у И.Ньютона, ни у Н.А.Морозова. Именно из-за необходимости проводить обширные вычисления И.Ньютон и Н.А.Морозов не смогли проанализировать весь хронологический материал. Они были вынуждены ограничиться отдельными расчетами и на их основе формулировать свои предположения и выводы.

Обработка текстов проводилась объективными (формальными) методами - любые другие исследователи, воспользовавшись теми же методиками, получат точно такие же результаты. Тем самым их работа носит не расплывчатый гуманитарный, а вполне строгий естественнонаучный характер. Она восстанавливает старинное понимание хронологии как раздела прикладной математики. И именно современные компьютерные технологии, позволяющие проделать огромный объем расчетов за достаточно короткое время, позволили применить эти объективные методы и получить результаты.

Объект изучения - существующие в настоящее время исторические хроники, описывающие события год за годом. Типичная хроника - древнерусская летопись. Современный учебник истории - это тоже хроника. Каждую из его глав можно рассматривать как отдельную хронику. Одна из наиболее известных хроник - та, что составляет хронологическую канву Библии.

Каждую хронику можно разбить на фрагменты - более короткие хроники. Основная используемая группой А.Т.Фоменко идея в хронологии состоит в том, что некоторые фрагменты, привязанные в хронологии Скалигера к различным эпохам, на самом деле описывают одни и те же события. Их вслед за А.Т.Фоменко будем называть дубликатами. Коротко рассматриваемую идею можно сформулировать так: в хронологии есть дубликаты.

О существовании дубликатов в истории Древнего Рима по Скалигеру писал Н.А.Морозов. Он их указывал явно. Так что новизны в идее поиска дубликатов нет. Достижение группы А.Т.Фоменко состоит, во-первых, в том, что были предложены формально-математические методы поиска дубликатов и, во-вторых, в том, что с помощью компьютеров был обсчитан весь массив имеющихся хроник.

Основная математико-статистическая идея группы А.Т.Фоменко состоит в формальном введении того или иного расстояния (меры похожести) в формальном же пространстве, описывающем возможные варианты фрагментов исторических хроник (использованные ими расстояния будут рассмотрены ниже).

Расшифруем эту математическую фразу. Сначала конструируется некоторое математическое пространство, в котором будут лежать математические образы фрагментов хроник. Это - отнюдь не элементарная операция, поскольку А.Т.Фоменко стремится учесть возможные варианты фрагментов, ошибки переписчиков, например, пропуск того или иного правителя, и т.п. В результате образ фрагмента - это не точка, а скорее облако точек, сконцентрированное в определенном месте пространства. Затем вводится расстояние (в математическом смысле) или показатель близости, похожести (или различия) между образами фрагментов. Поясним: предлагается способ расчета некоторого показателя f(a,b) для любых двух образов фрагментов a и b, показывающего степень их похожести: если этот показатель мал, то фрагменты a и b похожи, если велик, то существенно отличаются. В нескольких методиках показатель f(a,b) не является коммутативным: f(a,b) не совпадает с f(b,a). Чтобы не усложнять изложение, будем говорить о расстояниях (как известно, большинство авторов считает, что расстояние коммутативно: f(a,b) = f(b,a) для любых a,b).

Следующий шаг - интенсивное применение компьютеров для сплошной обработки всего массива образов фрагментов хроник, сформированного на предыдущем шаге. Цель обработки массива - выделение пар фрагментов хроник, расстояние между которыми меньше некоторого порогового числа. Такие пары рассматриваются как дубликаты, повествующие об одних и тех же событиях. Итогом компьютерного анализа является составление списка дубликатов.

Пороговое значение определялось по "обучающей выборке" - набору фрагментов хроник, про которые точно известно, когда они говорят об одних и тех же событиях, а когда - о различных. Например, как пишут Г.В.Носовский и А.Т.Фоменко, обучающую выборку можно сформировать из фрагментов западноевропейских хроник о событиях после 1700 г. Численные эксперименты показали, что значения используемых расстояний для пар дубликатов на несколько порядков меньше значений для независимых фрагментов. Это позволяет надежно выделять дубликаты и в том массиве образов фрагментов хроник, который не входит в обучающую выборку.

Дополнительным подтверждением правильности выделения пар дубликатов служит то, что различные методики группы А.Т.Фоменко (использующие различные пространства, образы фрагментов хроник, расстояния) дают одни и те же результаты. С точки зрения общей теории устойчивости [8] это говорит о том, что дубликаты - объективная реальность, они действительно присутствуют в массиве фрагментов хроник, не зависят от субъективизма исследователя. Вот если бы разные методы давали разные множества пар дубликатов, были бы все основания усомниться в их объективном существовании. Выбор метода - в распоряжении исследователя, какой метод выбрал - такой и результат получил.

Итак, дубликаты выделены. У фрагмента a может быть не один дубликат b, а еще и дубликаты c, d,... Поскольку совершенно невероятно, чтобы история повторялась, все дубликаты a, b, c, d,... соответствуют одним и тем же реальным событиям. Основная гипотеза А.Т.Фоменко состоит в том, что эти реальные события соответствуют последнему по времени дубликату. Остальные дубликаты получены сдвигами некоторых из реальных событий последнего по времени дубликата вглубь времен, другими словами, влево по оси времени. После выделения пар дубликатов фрагментов хроник проводится анализ связей между дубликатами и их группами с целью выделения "костяка", из которого путем дублирования получаются все остальные цепочки хроник.

Итак, реальные события конкретного фрагмента хроники раздваиваются, растраиваются и т.д., уходя в древность. При этом конкретная личность получает отражения, дубликаты в прошлых веках. Как справлялись с этим затруднением хронисты Скалигер и Пентавиус? Блестяще справлялись, с выдумкой.

Старались не дублировать имена. И это удавалось. У каждого человека и тогда, и даже сейчас - много имен. Например, в детстве меня звали Шуриком, сейчас я для близких - Саша, официальное имя - Александр, коллеги и студенты величают Александром Ивановичем, в официальной обстановке - Профессор Орлов. Пять имен у меня. И это еще не все. Я и Саня, и Старший Лейтенант Орлов. Мог бы быть и Аликом. А ведь бывают еще псевдонимы, прозвища. В древности на Руси было личное имя, и было церковное, даваемое при крещении. При вступлении на престол меняли имя. Так что у хронистов был большой выбор для именования лиц-дубликатов.

Как быть с событиями-дубликатами? Иногда одни события "уезжали" в далекое прошлое, другие оставались на своем месте. Но бывало и так, что одни и те же события описывались несколько раз. Тогда выручали подробности, для каждого дубликата свои. С совершенно неправдоподобной точностью цитировались слова великих греков и римлян по тому или иному поводу, как будто этих лиц постоянно сопровождали стенографистки. Впрочем, нам не следует подходить к работе старых хронистов со своими мерками. Нам важна точность. А их, возможно, больше интересовала занимательность и учет интересов заказчика (ведь рукопись надо выгодно продать).

Перед группой А.Т.Фоменко встала обратная задача - восстановить реальную историю, собрать дубликаты воедино, убрав шелуху, налипшую за столетия. При этом полезными оказались астрономические данные, лингвистические соображения, анализ предметов материальной культуры и другие методы, не связанные впрямую с компьютерным анализом фрагментов хроник. Совершенно необычной оказалась ситуация с русской историей. Книги [1-7] посвящены в основном восстановлению подлинной истории, компьютерной статистике в них отведено мало места. Видимо, потому, что, во-первых, она уже сыграла свою роль, позволив выделить дубликаты, во-вторых, для ее понимания нужны специальные знания в области математической статистики, которыми большинство читателей себя не утруждает (отметим в скобках, что курс "теория вероятностей и математическая статистика" читается практически в любом вузе, по крайней мере техническом). Однако в результате часть читателей начинает дискуссию по частностям, игнорируя компьютерно-статистическую основу.

(Продолжение - в следующем выпуске рассылки.)

*   *   *   *   *   *   *

На сайте "Высокие статистические технологии", расположенном по адресу http://orlovs.pp.ru, представлены:

На сайте есть форум, в котором вы можете задать вопросы профессору А.И.Орлову и получить на них ответ.

*   *   *   *   *   *   *

Удачи вам и счастья!


В избранное