Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 632


"Эконометрика", 632 выпуск, 4 марта 2013 года.

Здравствуйте, уважаемые подписчики!

*   *   *   *   *   *   *

Начинаем публиковать нашу работу "О развитии статистических методов". Она входила включена в электронный вариант нашего учебника "Высокие статистические технологии: Статистические методы анализа данных" http://ibm.bmstu.ru/nil/biblio.html#books-03-hsstatan в качестве главы 15, но при подготовке издания на бумаге (Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с., см. выпуски рассылки No.628 от 4 февраля и No.629 от 11 февраля 2013 г.) была исключена, поскольку ее стиль сильно отличался от стиля остальных глав.

Поздравляем с наступающим весенним праздником 8 марта - Международным женским днем!

Все вышедшие выпуски доступны в Архиве рассылки по адресу subscribe.ru/catalog/science.humanity.econometrika.

*   *   *   *   *   *   *

О развитии статистических методов

А.И. Орлов

1. Основные этапы становления статистических методов

Самая ранняя из известных нам статистических работ входит в Библию. В Ветхий Завет включена Четвертая книга Моисеева под названием "Числа". Глава 1 этой книги начинается так (цитируем по синодальному изданию Библии):

"1. И сказал Господь Моисею в пустыне Синайской, в скинии собрания, в первый день второго месяца, во второй год по выходе их из земли Египетской, говоря:

2. Исчислите всё общество сынов Израилевых по родам их, по семействам их, по числу имен, всех мужеского пола поголовно,

3. От двадцати лет и выше, всех годных для войны у Израиля, по ополчениям их исчислите их - ты и Аарон.

4. С вами должны быть из каждого колена по одному человеку, который в роде своем есть главный.

***

21. Исчислено в колене Рувимовом сорок шесть тысяч пятьсот.

***

23. Исчислено в колене Симеоновом пятьдесят девять тысяч триста.

***

46. И было всех вошедших в исчисление шестьсот три тысячи пятьсот пятьдесят".

Практическая направленность этого статистического исследования вполне очевидна. Обратите внимание, что оно предпринято по решению руководства страны (в библейских терминах - "общества сынов Израилевых"), причем к работам привлечены региональные начальники (главные по коленам, на которые делилось государство). Четко указана совокупность, подлежащая переписи - мужчины от 20 лет и старше, годные для войны (военнообязанные).

Древность исследования проявляется только в том, что стандартные описания результатов учета военнообязанных по коленам выражены словами. Сейчас мы представили бы результаты в виде таблицы. Таблицы такого типа постоянно составляют органы государственной статистики и в настоящее время (см. портал http://www.gks.ru Федеральной службы государственной статистики РФ (краткое название - Росстат)).

Итак, при сравнении с деятельностью Росстата описанное в Библии исследование, выполненное под руководством Моисея, является вполне современным по своим задачам и методам.

Развитие представлений о статистике

В Библии не было терминов "статистика" или "статистик". Впервые термин "статистик" мы находим в художественной литературе - в "Гамлете" Шекспира (1602 г., акт 5, сцена 2). Смысл этого слова у Шекспира - знать, придворные. По-видимому, оно происходит от латинского слова status, которое означает "состояние" или "политическое состояние".

В течении следующих 400 с небольшим лет термин "статистика" понимали и понимают по-разному. В работе [1] сотрудниками Межфакультетской лаборатории статистических методов МГУ им. М.В. Ломоносова собрано более 200 определений этого термина, некоторые из которых приводятся ниже.

Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: "Статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом". И в настоящее время деятельность государственных статистических служб достаточно хорошо соответствует этому определению.

Однако постепенно термин "статистика" стал использоваться более широко. По Наполеону Бонапарту: "Статистика - это бюджет вещей". Тем самым статистические методы были признаны полезными не только для административного управления, но и для управления на уровне отдельного предприятия. Согласно формулировке 1833 г. "цель статистики заключается в представлении фактов в наиболее сжатой форме". Здесь статистика уже не связывается ни с государствоведением, ни с социально-экономическими проблемами вообще.

Приведем еще два высказывания. "Статистика состоит в наблюдении явлений, которые могут быть подсчитаны или выражены посредством чисел" (1895). "Статистика - это численное представление фактов из любой области исследования в их взаимосвязи" (1909).

В ХХ в. статистику часто рассматривают прежде всего как самостоятельную научную дисциплина. "Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных" (1925). В 1954 г. академик АН УССР Б.В. Гнеденко дал следующее определение: "Статистика состоит из трех разделов:

1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;

2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;

3) разработка приемов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики".

Термин "статистика" употребляют еще в двух смыслах. Во-первых, в обиходе под "статистикой" часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, специалисты в области статистических методов называют "статистикой" функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.

Чтобы подойти к современному состоянию, в частности, разъяснить термин "прикладная статистика", кратко рассмотрим историю реальных статистических работ.

Краткая история статистических методов

Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете. Там, в частности, приводится число воинов в различных племенах ("коленах"). С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.

В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Росстат. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм. Однако нет продвижения по сравнению с работами российских статистиков конца XIX - начала XX вв. (типовой монографией тех времен можно считать книгу В.И. Ульянова "Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности", которая в настоящее время ещё легко доступна).

Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII в.) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 1/2, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований, к лучшим из них относится очерк Б.В. Гнеденко. Основатель современного бухгалтерского учета Лука Пачолли (1445 - 1517) хорошо известен и историкам теории вероятностей. Это символично, поскольку вопросы учета и статистики тесно переплетаются в деятельности современного инженера и менеджера.

В 1794 г. (по другим данным - в 1795 г.) К.Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты малой планеты (астероида) Церера - для борьбы с ошибками астрономических наблюдений (см. главу 6). В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской АН М.В. Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х в. Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны (см. главу 10).

Параметрическая статистика

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основан журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера, основанные на вероятностно-статистических моделях, в которых результаты измерений (наблюдений, испытаний, опытов, анализов) имели нормальное распределение. В те годы были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним параметром или небольшим числом параметров (2 - 4). Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами.

С математической точки зрения параметрическая статистика дает интересные теоретические схемы, на основе которых построена развитая теория. Для профессионалов укажем на теорию достаточных статистик, неравенство Рао-Крамера, теорию оптимального оценивания и другие внутриматематические достижения.

Критика параметрической статистики вытекает из ее оторванности от практики статистической работы. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений непременно должно входить в то или иное параметрическое семейство. Исключения есть, и они хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция, подгонка.

Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н.Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, использующих статистические методы в различных отраслях народного хозяйства и областях науки, но далеких от новых достижений в статистической науке. Почему так происходит? Чтобы попытаться ответить на этот вопрос, обратимся к наукометрии, т.е. к статистическим методам в науковедении.

Наукометрия статистических исследований

В рамках движения за создание Всесоюзной статистической ассоциации (учреждена в 1990 г.) проведен назад анализ статистики как области научно-практической деятельности. Он показал, в частности, что актуальными для специалистов в настоящее время являются не менее чем 100 тысяч публикаций. Реально же каждый из нас знаком с существенно меньшим количеством книг и статей. Так, в известном трехтомнике М Кендалла и А. Стьюарта - наиболее полном на русском языке издании по статистическим методам - всего около 2 тысяч литературных ссылок. При всей очевидности соображений о многократном дублировании в публикациях ценных идей приходится признать, что каждый специалист по статистическим методам владеет лишь небольшой частью накопленных в этой области знаний. Поэтому нет ничего удивительного в том, что приходится постоянно сталкиваться с игнорированием или повторением ранее полученных результатов, с уходом в тупиковые (с точки зрения практики) направления исследований, с беспомощностью при обращении к реальным данным, и т.д. Все это - одно из проявлений адапционного механизма торможения развития науки, вызванного ее быстрым ростом, о котором еще 40 лет назад писали В.В.Налимов и другие науковеды.

Традиционный миф состоит в том, что каждый новый результат, полученный исследователем - это кирпич в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом, а затем и при решении практических задач. Реальная ситуация - совсем иная. Основа профессиональных знаний исследователя, инженера, экономиста, менеджера, социолога, историка, геолога, медика закладывается в период обучения. Затем знания пополняются в том узком направлении, в котором работает специалист. Следующий этап - тиражирование знаний при обучении нового поколения. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, согласно мнению экспертов, по научному уровню в основном соответствуют 40-60-м гг. ХХ в. А потому середине ХХ в. соответствует большинство вновь публикуемых исследований и тем более - прикладных работ. Одновременно приходится признать, что результаты, не вошедшие в учебники, независимо от их ценности почти все забываются. Достаточно взглянуть на длинные ряды библиотечных полок с номерами научных журналов за последние сто лет. Сколько из них были хотя бы один раз открыты в текущем веке? Кроме того, сейчас все популярнее поиск информации в Интернете - вплоть до того, что кое-кто из молодых даже забывает о существовании библиотек. А ведь в Интернете можно найти лишь небольшую часть опубликованных в ХХ веке научных работ.

Активно продолжается развитие тупиковых направлений. Психологически это понятно. Приведу пример из своего опыта. В свое время по заказу Госстандарта я разработал методы оценки параметров гамма-распределения. Поэтому мне близки и интересны работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам, понятия функции максимального правдоподобия, эффективности оценок, использование неравенства Рао-Крамера и т.д. К сожалению, я знаю, что это - тупиковая ветвь теории статистики, поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы, о которых речь пойдет ниже. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим утверждением. В том числе и мне. Но необходимо идти вперед. Поэтому настоящий учебник (Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.) во многом очищен от тупиковых подходов. В том числе и от неравенства Рао-Крамера. Однако я включил разделы 3.1 и 3.2, посвященные оцениванию параметров распределений, поскольку эта тематика часто обсуждается в литературе, причем с устаревших позиций. Например, вместо уходящих в прошлое оценок максимального правдоподобия в настоящее время рекомендуют использовать одношаговые оценки (раздел 3.2).

Непараметрическая статистика

Статистические методы, которые не основаны на нереалистическом предположении о том, что рассматриваемые выборки взяты из распределений, описываемых одним параметром или небольшим числом параметров (2 - 4), называют непараметрическими. При математическом обосновании непараметрических статистических методов обычно вводят те или иные условия регулярности, например, требуют непрерывности функции распределения результатов наблюдений или существования математического ожидания и дисперсии. Как правило, подобные условия регулярности носят внутриматематический характер и не ограничивают прикладные возможности непараметрических методов.

Примерами являются критерии Колмогорова, Смирнова, Реньи, Вилкоксона, омега-квадрат (Крамера - Мизеса - Смирнова), предназначенные для проверки гипотез согласия и однородности и разработанные в 30-е - 40-е гг. ХХ в. История непараметрических коэффициентов корреляции Спирмена и Кендалла уходит корнями в работы начала ХХ в. В 50-х гг. с известной работы Н.В. Смирнова началась разработка методов непараметрического оценивания плотности (см. разд. 2.5). Непараметрическая статистика активно развивается и в XXI веке.

Во второй половине ХХ в. появились новые области статистических методов - робастная статистика, компьютерное статистическое моделирование (методы Монте-Карло, бутстреп-методы), статистика нечисловых и интервальных данных. Эти области активно развиваются и в настоящее время. О них пойдет речь в главе 16.

Иные причины привели к появлению и распространению прикладной статистики. Что означает этот термин? Вполне естественно, что математическая статистика выступает как метатеория по отношению к статистическим методам в той или иной области применения - к эконометрике, т.е. статистическим методам в экономике, к наукометрии, к биометрике, хемометрике и другим "метрикам". По цитированному выше определению Б.В. Гнеденко: "разработка приемов статистического наблюдения и анализа статистических данных составляет содержание математической статистики". Почему понадобилась новая научная область - прикладная статистика - между математической статистикой и статистическими методами в конкретных областях применений? Для ответа на этот вопрос необходимо обсудить внутреннюю логику развития статистических методов как научно-прикладной дисциплины.

Появление прикладной статистики

В нашей стране термин "прикладная статистика" вошел в широкое употребление в 1981 г. после выхода массовым тиражом (33940 экз.) сборника "Современные проблемы кибернетики (прикладная статистика)". В этом сборнике обосновывалась трехкомпонентная структура прикладной статистики [2]. Во-первых, в нее входят ориентированные на прикладную деятельность статистические методы анализа данных (эту область можно назвать прикладной математической статистикой и включать также и в прикладную математику). Однако прикладную статистику нельзя целиком относить к математике. Она включает в себя две внематематические области. Во-первых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, какие вероятностно-статистические модели использовать, какие статистические методы выбирать для обработки данных, как представлять результаты. Во-вторых, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных. В нашей стране термин "прикладная статистика" использовался и ранее 1981 г., но лишь внутри сравнительно небольших и замкнутых групп специалистов [2].

Прикладная статистика и математическая статистика - это две разные научные дисциплины. Различие четко проявляется не только в исследованиях, но и при преподавании. Курс математической статистики состоит в основном из доказательств теорем, как и соответствующие учебники и учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе).

К настоящему времени беспристрастному наблюдателю очевидно четко выраженное размежевание этих двух научных дисциплин. Математическая статистика исходит из сформулированных в 1930-50 гг. постановок математических задач, происхождение которых связано с рассматриваемыми в те времена проблемами анализа статистических данных. Начиная с 70-х гг. ХХ в. исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих старых задач. Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.

Сам термин "прикладная статистика" возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением. Как правило, математические дисциплины проходят в своем развитии ряд этапов. Вначале в какой-либо прикладной области возникает необходимость в применении математических методов и накапливаются соответствующие эмпирические приемы (для геометрии это - "измерение земли", т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это - время Евклида). Затем идет внутриматематическое развитие и преподавание (известно, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та для решения своих задач порождает новые научные дисциплины (сейчас "измерением земли" занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия "ушла" из вузов, но до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке). Следующий этап - окончательное вытеснение дисциплины из реальной жизни в историю науки (объем преподавания элементарной геометрии в настоящее время постепенно сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечает профессор МГУ им. М.В. Ломоносова В.Н. Тутубалин [18], теория вероятностей и математическая статистика успешно двигаются по ее пути - вслед за элементарной геометрией.

Резюмируем сказанное. Хотя статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете), современная математическая статистика как наука была создана, по общему мнению специалистов, сравнительно недавно - в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики. После чего специалисты по математической статистике занялись внутриматематическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина - прикладная статистика.

В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Разрыв между математической и прикладной статистикой проявляется, в частности, в том, что большинство методов, включенных в статистические программные продукты (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам (о грубых ошибках в ГОСТах рассказано в главе 10).

Что дает прикладная статистика народному хозяйству?

Так называлась статья [4], в которой приводились многочисленные примеры успешного использования прикладной статистики и других статистических методов при решении практических задач. Перечень примеров можно продолжать практически безгранично (см., например, главы настоящего учебника).

Методы прикладной статистики используются в зарубежных и отечественных экономических и технических исследованиях, работах по управлению (менеджменту), в медицине, социологии, психологии, истории, геологии и других областях. Их применение дает заметный экономический эффект. Например, в США - не менее 10 млрд. долл. ежегодно только в области статистического контроля качества. В 1988 г. затраты на статистический анализ данных в нашей стране оценивались в 2 млрд. руб. ежегодно [5]. Согласно расчетам сравнительной стоимости валют на основе паритета покупательной способности, эту величину можно сопоставить с 6 млрд. долл. В целом объем отечественного "рынка статистических услуг" был на порядок меньше, чем в США, что совпадает с оценками и по другим показателям, например, по числу специалистов.

Своеобразие исторического пути России привело к тому, что в нашей стране нет специализированного научного журнала по статистическим методам. Публикации по новым статистическим методам, по их применениям в технико-экономических исследованиях, в инженерном деле постоянно появляются, прежде всего, в журнале "Заводская лаборатория", в разделе "Математические методы исследования". Надо назвать также журналы "Автоматика и телемеханика" (издается Институтом проблем управления Российской академии наук), "Экономика и математические методы" (издается Центральным экономико-математическим институтом РАН), ежегодный межвузовский сборник научных трудов "Статистические методы оценивания и проверки гипотез" (издается Пермским государственным университетом).

Для большинства менеджеров, экономистов и инженеров прикладная статистика и другие статистические методы являются пока экзотикой. Это объясняется тем, что в вузах современным статистическим методам почти не учат. Во всяком случае, по состоянию на 2013 г. каждый квалифицированный специалист в этой области - самоучка.

Этому выводу не мешает то, что в вузовских программах обычно есть два курса, связанных со статистическими методами. Один из них - "Теория вероятностей и математическая статистика". Этот небольшой курс обычно читают специалисты с математических кафедр. Они успевают дать лишь общее представление об основных понятиях математической статистики. Кроме того, внимание математиков обычно сосредоточено на внутриматематических проблемах, их больше интересует доказательства теорем, а не применение современных статистических методов в задачах экономики и менеджмента. Другой курс - "Статистика" или "Общая теория статистики", входящий в стандартный блок экономических дисциплин. Фактически он является введением в прикладную статистику и содержит первые начала эконометрических методов (по состоянию на 1900 г.).

Статистические методы как учебный предмет опираются на два названных вводных курса. Они призваны вооружить специалиста современным статистическим инструментарием. Специалист - это инженер, экономист, менеджер, геолог, медик, социолог, психолог, историк, химик, физик и т.д. Во многих странах мира - Японии и США, Франции и Швейцарии, Перу и Ботсване и др. - статистическим методам обучают в средней школе. ЮНЕСКО постоянно проводят конференции по вопросам такого обучения. В СССР и СЭВ, а теперь - по плохой традиции - и в России игнорируют этот предмет в средней школе и лишь слегка затрагивают его в высшей. Результат на рынке труда очевиден - снижение конкурентоспособности специалистов.

Проблемы прикладной статистики и других статистических методов постоянно обсуждаются специалистами. Широкий интерес вызвала дискуссия в журнале "Вестник статистики", в рамках которой была, в частности, опубликована статьи [4]. На появление в нашей стране прикладной статистики отреагировали и в США [6].

В нашей стране получены многие фундаментальные результаты прикладной статистики. Огромное значение имеют работы академика А.Н. Колмогорова. Во многих случаях именно они дали первоначальный толчок дальнейшему развитию ряда направлений прикладной статистики. Зачастую еще 50-70 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Как правило, его работы не устарели и сейчас. Свою жизнь посвятили прикладной статистике члены-корреспонденты АН СССР Н.В. Смирнов и Л.Н. Большев. В настоящем учебнике постоянно встречаются ссылки на лучшую публикацию ХХ в. по статистическим методам - составленные ими и подробно откомментированные "Таблицы математической статистики".

Об отечественных исследованиях в области прикладной статистики и других статистических методов подробнее поговорим в следующем разделе.

2. Статистические методы в России

Специалисты по истории статистики установили, что в России, как и в других странах, статистические исследования проводились c момента возникновения государств. Цели этих исследований, как и описанных в Библии работ под руководством Моисея, вытекали из потребностей государственного управления, прежде всего налогообложения и обороны страны. С XII века (в традиционной хронологии) на Руси проводились переписи населения. Развитие статистической науки началось в России сразу же с выделением в начале XVIII века исследовательской деятельности как необходимой составляющей забот государства. Проще говоря, сразу же с организацией первого научного учреждения - Академии наук.

Первое статистико-экономическое обозрение России составлено Иваном Кирилловичем Кирилловым (1689 - 1737), обер-секретарем Сената, под названием "Цветущее состояние Всероссийского государства...". Первый в России научный труд по вопросам организации учета населения - "Разсуждение о ревизии поголовной и касаюсчемся до оной" - был написан в 1747 г. Василием Никитичем Татищевым (1686 - 1750), известным государственным деятелем той эпохи. Он, в частности, одним из первых применял анкеты для сбора статистических данных. Большой вклад в теорию и практику отечественной статистики внес Михаил Васильевич Ломоносов (1711 - 1765).

Подробное описание развития статистической науки и практики в России можно найти в трудах по истории социально-экономической ветви статистики (см., например, [7]). К сожалению, в этих работах обычно не рассматривается развитие отечественной вероятностно-статистической научной школы. О причинах такой однобокости скажем ниже.

Реформы императора Александра Второго, создание земств (органов местного самоуправления), дали мощный стимул развитию статистики. Связано это с тем, что штатное расписание губернских и уездных земств, как правило, включало должность статистика. Так, к концу 1894 г. за 15 лет активной статистической деятельности были собраны, разработаны и опубликованы земствами материалы крестьянских подворных переписей по 172 уездам, охватившим около 4 миллионов крестьянских дворов - примерно четвертую часть всего населения России [7, стр.109].

Проведение статистических исследований было делом чести для отечественной интеллигенции. Так, Антон Павлович Чехов по собственной инициативе в 1890 г. осуществил перепись на Сахалине, лично опросив несколько тысяч каторжников.

Расцвет статистики в конце XIX века проявился в появлении большого числа оригинальных исследований, выполненных на высоком профессиональном уровне. Одна из них хорошо известна и в настоящее время, что объясняется личностью автора. Речь идет о книге В.И. Ульянова (Ленина) "Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности." Она была издана в 1899 г., когда автору было 29 лет. По современным критериям за эту монографию автору можно было бы присудить ученую степень доктора экономических наук. Это утверждение свидетельствует не только о высоком профессиональном уровне В.И. Ульянова как исследователя, но и об известной деградации социально-экономической статистики за последние сто лет.

Наибольшие достижения в XX веке получены в России в математической статистике. Упомянем работы А.А. Чупрова (1874 - 1926) по теории корреляции. Несколько позже началась деятельность А.Н. Колмогорова.

Среди математиков ХХ столетия академик АН СССР А.Н. Колмогоров (1903 - 1987) должен быть назван первым. Именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений, важных для современных статистических методов. Зачастую еще 50 - 70 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться.

Вероятностно-статистические методы исследования в работах А.Н.Колмогорова

С современной точки зрения обсудим работы А.Н.Колмогорова по аксиоматическому подходу к теории вероятностей, критерию согласия эмпирического распределения с теоретическим, свойствам медианы как оценки центра распределения, эффекту "вздувания" коэффициента корреляции, теории средних величин, статистической теории кристаллизации металлов, методу наименьших квадратов, свойствам сумм случайного числа случайных слагаемых, статистическому контролю, несмещенным оценкам, аксиоматическому получению логарифмически нормального закона распределения при дроблении, методам обнаружения различий при экспериментах типа погодных [8].

Факты жизни и творчества А.Н. Колмогорова подробно рассмотрены в литературе. Его основные работы изданы в трех томах, составленных им самим. Андрей Николаевич считал, что хорошая математическая работа должна содержать простую идею (желательно геометрического характера), использовать "тонкую" аналитику, а хорошая и полезная прикладная работа должна опираться на фундаментальные теоретические основы.

Аксиоматический подход к теории вероятностей позволил рассматривать теорию вероятностей и математическую статистику как часть математики, проводить рассуждения на математическом уровне строгости. Введено четкое различие между частотой и вероятностью, случайная величина стала рассматриваться как функция от элементарного исхода, и т.д. За основу методов статистического анализа данных стало возможным брать вероятностно-статистические модели, сформулированные в математических терминах. В результате удалось четко отделить строгие утверждения от обсуждения философских вопросов случайности, преодолеть подход на основе понятия равновозможности, имеющий ограниченное практическое значение. Наиболее существенно, что после работ А.Н.Колмогорова нет необходимости связывать вероятности тех или иных событий с пределами частот. Так называемые "субъективные вероятности" получили смысл экспертных оценок вероятностей.

После выхода (в 1933 г. на немецком языке и в 1936 г. - на русском) основополагающей монографии А.Н. Колмогорова аксиоматический подход к теории вероятностей стал общепринятым в научных исследованиях в этой области. Во многом перестроилось преподавание. Повысился научный уровень многих прикладных работ. Однако традиционный подход оказался живучим. С целью повышения строгости формулировок приходится помещать во многих наших учебниках сводки терминов и определений в области вероятностно-статистических методов, опирающиеся на аксиоматику А.Н. Колмогорова.

В послевоенные годы А.Н.Колмогоров формализовал понятие случайности на основе теории информации: числовая последовательность является случайной, если ее нельзя заметно сжать (т.е. описать существенно короче) без потери информации. Однако этот подход не был предназначен для использования в прикладных работах и преподавании. Он представляет собой важное методологическое и теоретическое продвижение.

Критерии согласия. В работе 1933 г. "Об эмпирическом определении закона распределения" А.Н.Колмогоров предложил и изучил широко известный "критерий Колмогорова". Эта работа породила одно из основных направлений непараметрической статистики. И в настоящее время непараметрические критерии согласия (Колмогорова, Смирнова, омега-квадрат и др.) широко используются. Они были разработаны для проверки согласия с полностью известным теоретическим распределением. Основная идея критериев Колмогорова, омега-квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения. Расчетные формулы, таблицы распределений и критических значений широко распространены (см. главу 5 учебника).

Часто возникает задача проверки гипотезы согласия эмпирического распределения с параметрическим семейством, например, с семейством нормальных, Вейбулла-Гнеденко или гамма-распределений. Представляется естественным оценить параметры распределения по выборке, а затем формально воспользоваться критериями согласия Колмогорова, Смирнова или омега-квадрат. Вместо фиксированной теоретической функции распределения подставляют функцию из параметрического семейства, в которой параметры заменены на их выборочные оценки. В отличие от классических критериев, при этом измеряются расстояния от эмпирической функции распределения до многообразий (в пространстве функций распределения), соответствующих параметрическим семействам. Развита математическая техника проектирования в функциональных пространствах, которая позволяет строить методы проверки рассматриваемых гипотез.

Однако распределения таких критериев (как предельные, так и при конечных объемах выборок) существенно отличаются от распределений классических критериев согласия Колмогорова, Смирнова или омега-квадрат. Такие критерии в отличие от классических обычно называют "критериями согласия с параметрическим семейством типа Колмогорова-Смирнова и типа омега-квадрат". (Как показано нами на основе анализа исходных публикаций, корректно употреблять термины "критерий Колмогорова", "критерий Смирнова", "критерий типа Колмогорова-Смирнова", но нельзя говорить о несуществующем "критерии Колмогорова-Смирнова".)

"Вздувание" коэффициента корреляции - принципиально важное явление, обнаруженное А.Н. Колмогоровым в работе 1933 г. "К вопросу о пригодности найденных статистическим путем формул прогноза". Предположим, что имеется много наборов предикторов (факторов, признаков). Для каждого из них строится наилучшее приближение отклика с помощью линейной функции от предикторов. Показателем качества приближения служит коэффициент корреляции между откликом и наилучшей линейной функцией от предикторов (в настоящее время чаще используют его квадрат, называемый коэффициентом детерминации). Эффект "вздувания" коэффициента корреляции состоит в том, что при увеличении числа проанализированных наборов предикторов заметно растет максимальный из соответствующих коэффициентов корреляции - показателей качества приближения. Создается впечатление, что тот набор предикторов, на котором достигается рассматриваемый максимум, дает хорошее приближение для отклика. Однако это приближение развеивается при попытке использовать соответствующую зависимость для прогноза - по новым данным коэффициент корреляции между откликом и ранее найденной линейной функцией от предикторов оказывается значительно меньшим.

В настоящее время весьма популярны методы поиска "наиболее информативного множества признаков" в регрессионном и дискриминантном анализе. Соответствующие алгоритмы, как правило, основаны на переборе большого числа наборов признаков. Поэтому, как отмечено в литературе, актуальность рассматриваемой работы А.Н.Колмогорова в настоящее время существенно повысилась. Эффект "вздувания" коэффициента корреляции является одним из проявлений неклассического поведения статистических характеристик в ситуации, когда одна и та же статистическая процедура осуществляется многократно, например, при множественных проверках статистических гипотез (см. раздел 4.5).

В течение полувека А.Н.Колмогоров интересовался статистическими постановками, в которых число неизвестных параметров растет вместе с объемом данных. К ним относится и работа о "вздувании" коэффициента корреляции. А в 1970-х годах он стимулировал исследования по т.н. "асимптотике Колмогорова", в которой число параметров р и объем выборки n безгранично растут, причем их отношение остается постоянным. Эта асимптотика весьма актуальна как для многомерного статистического анализа (см. главу 6), так и для статистики нечисловых данных, а также для задач статистического приемочного контроля (см. главу 10) и анализа социологических данных (см. главу 12).

Метод медианы в теории оценивания. Обычно в качестве оценки для математического ожидания используют выборочное среднее арифметическое, обладающее оптимальными свойствами при условии нормальности распределения элементов выборки. Что делать, если распределение элементов выборки отлично от нормального? В работе 1931 г. "Метод медианы в теории ошибок" А.Н. Колмогоров предлагает в этом случае оценивать по выборке другую среднюю характеристику распределения - медиану. И выборочное среднее арифметическое, и выборочная медиана - асимптотически нормальные случайные величины. Поскольку обе статистики являются асимптотически несмещенными, то мерой сравнительной точности обоих методов является отношение их средних квадратических отклонений. В случае нормальной плотности это отношение примерно равно 1,25. Как установил А.Н. Колмогоров, для унимодальных распределений это отношение может принимать любое значение от 0 до 1,732, но не может превосходить 1,732.

Средние по Колмогорову. Естественная система аксиом приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н. Колмогоров. Теперь их называют "средними по Колмогорову" (Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана. - 2009. - 541 с.). В настоящем учебнике к средним по Колмогорову обращались в связи с рассмотрением выбора алгоритмов для анализа данных, измеренных в той или иной шкале. Так, для алгоритмов усреднения установлено, что в шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое, а в шкале отношений - только степенные средние и среднее геометрическое. Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия) или расстояний не имеют смысла. В качестве среднего в шкале интервалов надо применять среднее арифметическое. А также можно использовать медиану или моду.

Статистической теории кристаллизации металлов посвящена работа 1937 г. Построена модель возникновения центров кристаллизации и нарастания закристаллизованной массы. При широких допущениях найдена точная формула для вероятности, с которой наудачу выбранная точка объема, заполненного подлежащим кристаллизации веществом, попадет в течение промежутка кристаллизации внутрь уже закристаллизованной массы. Рассчитано число центров кристаллизации, образующихся в течение всего процесса кристаллизации. Полученные в этой работе результаты до сих пор представляют интерес для специалистов, связанных с изучением и использованием процессов кристаллизации металлов и иных веществ.

Метод наименьших квадратов. В двух работах А.Н.Колмогорова 1946-1947 гг. построена геометрическая теория метода наименьших квадратов, выявляющая роль ортогонального проектирования на подпространства конечномерного евклидова пространства с целью получения оценок параметров. Эта идея затем широко использовалась как в научных исследованиях, так и при преподавании.

Вторая идея этих работ состоит в построении алгоритмов доверительного оценивания и проверки гипотез на основе предположения о нормальности распределения погрешностей измерения. К настоящему времени вторая идея изжила себя, поскольку установлено, что в подавляющем большинстве случаев распределение погрешностей заметно отличается от нормального (см. раздел 2.1). Поэтому современный подход (глава 6) к методу наименьших квадратов является непараметрическим, т.е. в определенном смысле наблюдается возврат к доколмогоровским взглядам.

Суммы случайного числа случайных слагаемых рассмотрены в работе 1949 г., выполненной совместно с Ю.В. Прохоровым. Эта статья стимулировала исследования по важному для приложений виду предельных теорем. Речь идет прежде всего о статистическом последовательном анализе, в частности, об изучении времени наблюдения в задаче последовательного различения двух простых гипотез. Предельные теоремы о суммах случайного числа случайных слагаемых находят применения в задачах статистического контроля качества и надежности по Вальду, в моделях управления запасами в логистике (см. раздел 8.4) и др.

Статистический контроль. А.Н. Колмогоров - основоположник современной теории статистического приемочного контроля в нашей стране. Более 150 лет статистические методы применяются в России для проверки соответствия продукции установленным требованиям, т.е. для сертификации. Так, еще в 1846 г. действительный член Петербургской академии наук М.В. Остроградский рассматривал задачу статистического контроля партий мешков муки или штук сукна армейскими поставщиками. Однако современный этап начался в 1951 г. с брошюры А.Н.Колмогорова. С тех пор в России в статистическом контроле качества было сделано многое, особенно в области теории. Вопросы статистического контроля постоянно рассматриваются на страницах журнала "Заводская лаборатория" - основного места публикации отечественных работ по статистическим методам.

Большое значение для развития статистических методов управления качеством имеют статья А.Н.Колмогорова 1933 г. о критерии согласия эмпирического распределения с теоретическим и статья 1950 г. о несмещенных оценках. Актуальность первой из них определяется недостатками в используемых до сих пор статистических методах управления качеством. Широко распространенные ошибки состоят в том, что для критериев согласия с параметрическими семействами используют критические значения классических критериев. При этом, например, гипотеза нормальности принимается гораздо чаще, чем следует. Поскольку в действующей нормативно-технической документации дальнейшие этапы анализа данных часто зависят от того, принимается нормальность или нет, то ошибки при такой проверке могут иметь далеко идущие последствия. Так, при анализе характеристик эластомерных материалов при ошибочном подходе из 30 выборок нормальность была отвергнута лишь для 2, а при правильном - для 26, т.е. в подавляющем большинстве случаев. Указанные ошибки встречаются в массе публикаций (хотя специалистам суть дела хорошо известна уже более 50 лет). Наиболее известный пример - полностью ошибочный ГОСТ 11.006-74 (СТ СЭВ 1190-78) "Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим" (формально отменен в 1987 г., но продолжает использоваться как методический материал.

Популярны и другие ошибки при применении рассматриваемых критериев согласия. Некоторые пытаются их использовать для сгруппированных данных, что приводит к излишне частому принятию нулевых гипотез. Другие вместо эмпирической функции распределения рассматривают иные оценки теоретической функции распределения. Например, при использовании вероятностной бумаги удобно ординату точки, соответствующей i-ой порядковой статистике, установить равной (i - 0,5)/n, а не i/n, как в классической эмпирической функции распределения. Возникает искушение построенную таким методом оценку использовать в критериях согласия вместо эмпирической функции распределения. Увы, распределение изменится (впрочем, в данном случае при росте объема выборки различие будет исчезать).

Несмещенные оценки. При оценивании по выборке параметров распределений (либо функций от них) рекомендуют использовать метод максимального правдоподобия, дающий при выполнении условий регулярности асимптотически оптимальные оценки. Однако часто возникают трудности с решением уравнений правдоподобия. Поэтому вместо оценок максимального правдоподобия применяют асимптотически им эквивалентные одношаговые оценки (см. раздел 3.2) или оценки иных видов. Среди последних популярными являются несмещенные оценки. При конечном объеме выборки оценки максимального правдоподобия в ряде случаев хуже несмещенных оценок (см. главу 3). Основная идея использования несмещенных оценок состоит по Колмогорову в следующем. Во многих важных случаях эти оценки существуют. С другой стороны, чрезмерное разнообразие несмещенных оценок может быть значительно сокращено, если воспользоваться несмещенными оценками, которые выражаются через надлежащим образом выбранные достаточные статистики. Надо употреблять только несмещенные оценки, выражающиеся через достаточные статистики: при этом мы не суживаем круг задач, в котором несмещенные оценки существуют, и при переходе от произвольной (даже плохой) несмещенной оценки к осредненной оценке, выражающейся через достаточную статистику, можем только уменьшить дисперсию оценки. Справедлива теорема Рао-Блекуэлла-Колмогорова: оптимальная оценка, если она существует, является функцией от достаточной статистики.

А.Н.Колмогоров первым применил несмещенные оценки в задачах статистического контроля; использовал несмещенные оценки для определения эффективности планов выборочного контроля по альтернативному признаку. На основе идей А.Н. Колмогорова рядом авторов были построены несмещенные оценки для предъявленного и пропущенного брака, для априорного распределения числа дефектных изделий в контролируемых партиях, а также получены несмещенные оценки при контроле по альтернативному и количественному признакам. Несмещенные оценки основных показателей контроля включены в некоторые государственные стандарты (например, в ГОСТ 24660-81).

Полученная А.Н. Колмогоровым несмещенная оценка плотности нормального распределения нашла широкое применение в задачах контроля по количественному признаку. В дальнейшем этот результат перенесен на многомерное нормальное распределение, а также применен для задач статистической классификации. Разработанный нами метод проверки гипотез по совокупности малых выборок (см. Часть I учебника), также основан на использовании несмещенных оценок. Этот метод применяется при статистическом приемочном контроле по нескольким альтернативным признакам. В этом случае оказывается нецелесообразным переход к осредненной оценке, выражающейся через достаточную статистику.

Введенные А.Н. Колмогоровым верхние и нижние оценки могут быть также использованы, когда несмещенные оценки не существуют. Именно так обстоит дело при оценивании пропущенного брака при биномиальном распределении и плане одноступенчатого контроля. Рядом авторов получены верхние и нижние оценки функций неизвестных параметров, а также оценки с минимальным смещением.

О логнормальном законе распределения. В 1940 г. Н.К. Разумовский привел много случаев, в которых логарифмы размеров частиц (золотин в золотоносных россыпях, частиц горных пород при их дроблении и т.п.) приближенно подчиняются нормальному закону распределения. В 1941 г. А.Н. Колмогоров указал общую схему случайного процесса последовательного дробления частиц, при которой в пределе, при неограниченном продолжении дробления, нормальный закон для логарифмов размеров частиц может быть установлен теоретически. (Положительная случайная величина Х имеет логнормальный закон распределения, если логарифм величины Х имеет нормальный закон распределения; условия, при которых вероятностная модель приводит к нормальному закону, хорошо известны.)

Обнаружение различий. В семидесятых - восьмидесятых годах ХХ в. под научным руководством А.Н. Колмогорова на механико-математическом факультете МГУ им. М.В. Ломоносова работала группа исследователей, занимавшаяся статистическим анализом эффективности экспериментальных методов управления погодой. Речь идет об изменении количеств выпавших осадков, борьбе с градом и рассеянии туманов.

Упомянем также работы А.Н.Колмогорова по теории стрельбы, выполненные в военные годы, по генетике и биологии, по лингвистике. Особенно велик вклад, сделанный А.Н.Колмогоровым и его учениками (М.Д. Миллионщиков, А.С. Монин, А.М. Обухов, А.М. Яглом и др.) в теорию турбулентности. Здесь упомянем знаменитый колмогоровский "закон двух третей" о распределении энергии в спектре турбулентности, полученный из простых соображений размерности

Многие работы А.Н.Колмогорова представляют несомненный интерес для всех, кто разрабатывает или применяет статистические методы. Его мысли еще долго будут приносить нам всем практическую пользу. Отечественная вероятностно-статистическая научная школа порождена идеями А.Н. Колмогорова. Это хорошо видно на примере работ его ученика Б.В. Гнеденко.

(Продолжение следует.)

*   *   *   *   *   *   *

На сайте "Высокие статистические технологии", расположенном по адресу http://orlovs.pp.ru, представлены:

На сайте есть форум, в котором вы можете задать вопросы профессору А.И.Орлову и получить на них ответ.

*   *   *   *   *   *   *

Удачи вам и счастья!


В избранное