Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 54


Служба Рассылок Subscribe.Ru проекта Citycat.Ru

Здравствуйте, уважаемые подписчики!

   Продолжение отчета о научно-иследовательской работе, знакомящего вас с методами применения статистических методов на практике - в этом, 54-м выпуске от 6 августа 2001 года.
   Автор материалов рассылки и статей на сайте http://antorlov.chat.ru - профессор А.И.Орлов. Поддержка рассылки осуществляется А.А.Орловым.
   Все вышедшие выпуски Вы можете посмотреть в Архиве рассылки по адресу http://www.subscribe.ru/archive/science.humanity.econometrika.

*      *      *

Перспективы применения современных статистических и экспертных методов для анализа данных о научном потенциале

Отчет по научно-исследовательской работе

Содержание

  1. Введение
  2. Роль статистических данных и показателей в задачах изучения и управления наукой
  3. Современные статистические методы
  4. Основные идеи статистики объектов нечисловой природы, перспективы их алгоритмизации и применения для анализа статистических данных о научных организациях России
  5. Современный этап развития теории экспертных оценок
  6. Примеры возможных применений современных статистических методов анализа выборочных (в том числе социологических и экспертных) данных в задачах изучения и управления научным потенциалом

(Продолжение. Начало - в 53-м выпуске.)

3. Современные статистические методы

   Чтобы иметь возможность обсуждения тенденций развития статистических методов, кратко рассмотрим их историю.
   Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). С математической точки зрения они сводились к подсчетам числа попаданий значений наблюдаемых признаков в определенные градации. В дальнейшем результаты стали представлять в виде таблиц и диаграмм, как это и сейчас делает Госкомстат. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц. Однако нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого века (типовым представителем работ тех времен можно считать книгу [1], которая в настоящее время ещё легко доступна).
   Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0.5, анализировались причины того, что в парижских приютах эта вероятность не та, что в приютах, и т.д. [2]. Имеется достаточно много публикаций по истории теории вероятностей, однако в некоторых из них имеются неточные утверждения, что заставило академика Б.В.Гнеденко включить в последнее издание своего курса [3] главу по истории своей науки.
   В 1794 (по другим данным - в 1795) г. К.Гаусс разработал метод наименьших квадратов, один из наиболее популярных статистических методов, и применил его при расчете орбиты астероида Церера для борьбы с ошибками астрономических наблюдений [4]. В Х1Х веке большой вклад в развитие практической статистики внес бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [5]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Буняковским и применялись в российской армии ещё в середине Х1Х в.[6].
   Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К.Пирсон основан журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, основные идеи планирования эксперимента. Параметрическая статистика до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, далеких от новых веяний в статистической теории.
   В первой же трети ХХ в. в работах Спирмена и Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих имена этих статистиков. Но непараметрическая статистика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики со второй трети ХХ века. В 30-е годы появились работы А.Н.Колмогорова и Н.В.Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена. Эти критерии основаны на использовании так называемого эмпирического процесса - разности между эмпирической и теоретической функциями распределения, умноженной на квадратный корень из объема выборки. В работе А.Н.Колмогорова 1933 г. изучено предельное распределение супремума модуля эмпирического процесса, называемого сейчас критерием Колмогорова. Затем Н.В.Смирнов исследовал супремум и инфимум эмпирического процесса, а также интеграл (по теоретической функции распределения) квадрата эмпирического процесса. К сожалению, в последней из названных работ допущена ошибка, исправленная в [7]. Следует отметить, что встречающееся иногда в литературе [8] словосочетание "критерий Колмогорова-Смирнова" некорректно, поскольку эти два статистика никогда не печатались вместе и не изучали один и тот же критерий. Корректно сочетание "критерий типа Колмогорова-Смирнова", применяемое для обозначения критериев, основанных на использовании супремума функций от эмпирического процесса (наиболее общее определение дано, видимо, в [9-10]).
   После второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. Большую роль сыграли работы Вилкоксона и его школы. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических [8]. В нашей стране непараметрические методы получили достаточно большую известность после выхода в 1965 г. первого издания наилучшего из известных составителю отчета сборника статистических таблиц Л.Н. Большева и Н.В.Смирнова [11] с подробными комментариями. В области технических приложений много сделала для пропаганды непараметрических методов группа сотрудников кафедры автоматики Московского энергетического института под руководством проф. Г.К. Круга.
   Тем не менее параметрические методы всё еще популярнее непараметрических, особенно среди тех прикладников, кто слабо знаком со статистическими методами. Неоднократно публиковались [12, 13] экспериментальные данные, свидетельствующие о том, что распределения реально наблюдаемых случайных величин, в частности, ошибок измерения, в подавляющем большинстве случаев отличны от нормальных (гауссовских). Тем не менее теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики - применять подобные методы и модели. Другими словами, "ищут под фонарем, а не там, где потерял".
   При описании современного этапа развития статистических методов мы выделили [14] пять актуальных направлений: непараметрика, робастность, бутстреп, статистика объектов нечисловой природы, интервальная статистика. О первом из них сказано выше. Обсудим остальные.
   Если в параметрических постановках на данных накладываются слишком жесткие требования - их функции распределения должны принадлежать определенному параметрическому семейству, то в непрараметрических, наоборот, излишне слабые - требуется лишь, чтобы функции распределения были непрерывны. При этом игнорируется априорная информация о том, каков "примерный вид" распределения. Априори можно ожидать, что учет этого "примерного вида" улучшит показатели качества статистических процедур. Развитием этой идеи является теория робастности статистических процедур, в которой предполагается, что распределение исходных данных мало отличается от некоторого параметрического семейства. С 60-х годов эту теорию разрабатывали П.Хубер, Хампель и многие другие. Из монографий на русском языке, трактующих о робастности и устойчивости статистических процедур, самой ранней и наиболее общей была наша книга [15]. Частными случаями реализации идеи робастности (устойчивости) статистических процедур являются статистика объектов нечисловой природы и интервальная статистика. Эти направления современного развития статистических методов обсуждаются ниже.
   Пятое из упомянутых выше направлений - бутстреп - связано с интенсивным использованием возможностей вычислительной техники. Теоретическое исследование заменяется экспериментальным. Например, вместо того, чтобы теоретическим путем находить распределение статистики, доверительные интервалы и другие характеристики, моделируют много выборок, похожих на исходную, рассчитывают соответствующие значения интересующей исследователя статистики и изучают их эмпирическое распределение. Преимущества и недостатки бутстрепа как статистического метода обсуждаются в [16].
   Как уже отмечалось выше, в течение последних более чем 60 лет в России наблюдается огромный разрыв между государственной статистикой и научным сообществом специалистов по статистическим методам [17]. Поэтому нет ничего удивительного в том, что в учебнике по истории статистики [5] даже не упоминаются имена членов-корреспондентов АН СССР Н.В.Смирнова и Л.Н.Большева, нет достаточной информации о развитии статистических методов в России. Монографию на эту тему ещё предстоит написать.
   Перспективное направление последних лет - математическая статистика интервальных данных. Речь идет о развитии методов математической статистики в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин.
   Имеется определенный научный задел - с 1982 г. А.И.Орлов развивает асимптотические методы статистического анализа интервальных данных - при больших объемах выборок и малых погрешностях измерений. В частности, с их помощью были сформулированы правила выбора метода оценивания в ГОСТ 11.011-83 "Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения" [18].
   Далее была предложена общая схема исследования, включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она была применена к оцениванию математического ожидания, дисперсии, коэффициента вариации, параметров гамма-распределения и характеристик аддитивных статистик, при проверке гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, гипотезы однородности с помощью критерия Смирнова. Были намечены подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов.
   Имеется 10 публикаций А.И.Орлова (на русском и английском языках) непосредственно по математической статистике интервальных данных, в том числе [19 - 26]. Подход А.И.Орлова обсуждался, в частности, на Международной конференции по интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92) и на Московском семинаре по статистическим методам (МГИЭМ, 24.09.93, 25.02.94, 22.12.94). Эта тематика была отражена в докторской диссертации А.И.Орлова [27], затрагивалась в публикациях и выступлениях по статистике объектов нечисловой природы, статистическим методам управления качеством, экспертным оценкам и др.
   В 1994 г. в области математической статистики интервальных данных были получены теоремы об асимптотическом поведении оценок метода моментов и оценок максимального правдоподобия (а также более общих - оценок минимального контраста) и об асимптотическом сравнении этих методов в случае интервальных данных. Найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия. Изучено влияние погрешностей измерения и наблюдения на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы. Проанализировано применение интервальных данных в методе экспертных оценок с целью математического моделирования расплывчатости во мнениях экспертов. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на показатель качества классификации. Подготовлен аналитический обзор по основным идеям математической статистики интервальных данных.
   При проведении работ по интервальным статистическим методам в ближайшее время основное внимание предполагается уделить математико-статистическим моделям с интервальными данными в дискриминантном, кластерном и регрессионном анализах. Ожидаемые результаты работы: в 1995 г. будет проведено изучение интервальных методов дискриминантного анализа в случае полностью определенных классов и в случае классов, заданных обучающими выборками из нормальных совокупностей с одинаковыми ковариационными матрицами, а также изучение "порога неразличимости" в кластер-анализе. Будут получены теоремы о главных членах приращения показателя качества классификации, о свойствах многомерных и асимптотических нотн в регрессионном анализе, проведено изучение интервальных постановок в непараметрических методах дискриминантного анализа и исследование агломеративных алгоритмов кластерного анализа.
   Как показала, в частности, Международная конференция ИНТЕРВАЛ-92, в области асимптотической математической статистики интервальных данных мы имеем мировой приоритет. Работа по рассматриваемой тематике позволит закрепить этот приоритет, получить теоретические результаты, основополагающие в новой области математической статистики и необходимые для обоснованного статистического анализа почти всех типов данных. Со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков.
   Согласно классификации статистических методов, принятой в [28-29], прикладная статистика делится на следующие области:

  1. Статистика (числовых) случайных величин,
  2. Многомерный статистический анализ,
  3. Статистика временных рядов и случайных процессов,
  4. Статистика объектов нечисловой природы.

   Третья из этих областей посвящена в основном проблемам прогнозирования.
   Формально-статистические методы прогноза временных рядов используют лишь статистические данные, накопленные до определенного момента времени. Математические модели прогнозирования, в частности, эконометрические, основаны на тех или иных формализованных представлениях о развитии прогнозируемого процесса, например, на корреляционных связях с управляемыми параметрами, выраженных регрессионными и авторегрессионными уравнениями. Эти представления аккумулируют знания разработчиков о моделируемом процессе и определяют точность прогноза.
   Одним из эффективных подходов к исследованию и анализу поведения самых различных явлений, объектов или процессов является обработка последовательностей измерений параметров, которые называются временными рядами. Во многих практических задачах только на основании анализа временных рядов возможно выявить скрытые изменения, происходящие в наблюдаемом объекте или явлении.
   Область статистических методов, посвященная анализу поведения сложных систем, выявлению происходящих в них скрытых изменений, давно разрабатывается и к настоящему времени содержит большое число разнообразных конкретных методов (см., например, [30-32]).
   Среди них для решения задач анализа данных о научном потенциале представляют интерес методы обнаружения изменения свойств временных рядов с помощью последовательных алгоритмов в эконометрике, при анализе изменений показателей науки и др. Среди них - методы, решающие следующие задачи: последовательное обнаружение изменения свойств независимых случайных последовательностей и зависимых случайных последовательностей типа авторегрессии с помощью ряда жестко настроенных и адаптивных алгоритмов скорейшего обнаружения, обнаружение изменения свойств многомерных сигналов, наблюдаемых с избыточностью, параметрический анализ временных рядов на основе авторегрессии, стандартной обработки временных рядов (цифровая фильтрация, преобразования, разности).
   Экспертное прогнозирование (в частности, метод сценариев) широко используются как при глобальном прогнозировании, так и, например, при рассмотрении развития технологических катастроф. Основная идея состоит в том, что экспертная комиссия с помощью специально разработанной процедуры формулирует возможные и достаточно вероятные сценарии развития процесса, а затем в каждом из них с помощью последовательных туров экспертных оценок прослеживает динамику конкретных событий.
   Системы прогнозирования, сочетающие математическое моделирование и экспертные оценки, представляются наиболее перспективными. Первым в нашей стране в 70-х годах построил подобную систему С.А.Петровский (с соавторами) из Института мировой экономики и международных отношений АН СССР. Так называемые "экспертные системы", получившие известность в последнее время, как правило, не содержат блоков математического моделирования и потому менее перспективны, чем названная (подробнее см. [33]).

Литература к разделу 3

   1. Ульянов В.И. Развитие капитализма в России. - Много изданий.
   2. Майстров Л.Е. История теории вероятностей. - М.: Наука, 1985.
   3. Гнеденко Б.В. Курс теории вероятностей. - М.: Наука, 1989.
   4. Клейн Ф. Очерки о развитии математики в Х1Х веке. - М.: ГНТИ, 1937.
   5. Елисеева И.Н., Плешко А.Г. История статистики. - М.: Высшая школа, 1990.
   6. Гнеденко Б.В. Математическая статистика и контроль качества. -М.: Знание, 1976. - 64 с.
   7. Орлов А.И. Скорость сходимости распределения статистики Мизеса-Смирнова/Теория вероятностей и её применения. 1974. Т.19, вып.4, с.766-786.
   8. Холландер М., Вулф Д. Непараметрические методы статистики. - М.: Финансы и статистика, 1985.
   9. Орлов А.И. Переход от сумм к интегралам и его применения в изучении асимптотических распределений статистик /Теория вероятностей и её применения. 1973. Т.18, вып.4, с.881-883.
   10. Орлов А.И. Оценки скорости сходимости распределений статистик интегрального типа, определенных с помощью эмпирических процессов /Теория вероятностей и её применения. 1975. Т.20, вып.4, с.698-700.
   11. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики.- М.: Наука, 1965, 1968, 1983.
   12. Налимов В.В. Применение математической статистики при анализе вещества. - М.: Физматгиз, 1961.
   13. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? /Заводская лаборатория. 1991. Т.57, No.7, с.64-66.
   14. Орлов А.И. Пути развития статистических методов: непараметрика, робастность, бутстреп и реалистическая статистика /Надежность и контроль качества. 1991. No.8, с.3-8.
   15. Орлов А.И. Устойчивость в социально-экономических моделях - М.: Наука,1979, 296 с.
   16. Орлов А.И. О реальных возможностях бутстрепа как статистического метода /Заводская лаборатория. 1987. Т.53, No.10, с.82-85.
   17. Орлов А.И. О перестройке статистической науки и её применений /Вестник статистики. 1990, No.1, с.65 - 71.
   18. ГОСТ 11.011-83 "Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения".- М.: Изд-во стандартов. 1984, 53 с.
   19. Орлов А.И. О влиянии погрешностей наблюдений на свойства статистических процедур (на примере гамма-распределения) /Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1988. - С.45-55.
   20. Орлов А.И. О развитии реалистической статистики/Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1990. - С.89-99.
   21. Орлов А.И. Дискуссия по анализу интервальных данных/Заводская лаборатория. 1990, Т.56. No.7. С.86-89.
   22. Орлов А.И. Некоторые алгоритмы реалистической статистики /Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1991. - С.77-86.
   23. Orlov A.I. Interval Statistics/Ж-л "Interval Computations", 1992, No.1(3), p.44-52.
   24. Орлов А.И. Интервальная статистика. - Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике. Том 1. - М.: МЭИ, 1992, с.122-125.
   25. Орлов А.И. Интервальный статистический анализ/ Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Пермский государственный университет, 1993, с.149-158.
   26. Орлов А.И. Основные идеи интервальной математической статистики/ Наука и технология в России. 1994. No.4(6).
   27. Орлов А.И. Разработка и исследование статистических методов моделирования и анализа объектов нечисловой природы. Диссертация в форме научного доклада на соискание ученой степени доктора технических наук. - М.: Московский энергетический институт, 1992. - 40 с.
   28. Прикладная статистика. Методы обработки данных. Основные требования и характеристики. - М.: ВНИИСтандартизации, 1987, 64 с.
   29. Орлов А.И. Статистика объектов нечисловой природы. Обзор/ Заводская лаборатория, 1990, т.56, No.3, с.76-83.
   30. Кендэл М. Временные ряды. - М.: Финансы и статистика, 1981, 199 с.
   31. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976, 736 с.
   32. Орлов А.И. О некоторых математических задачах, возникающих при обработке медицинских данных. - В сб.: Статистика, вероятность, экономика. - М.: НАука, 1985, с.323-326.
   33. Комаров Д.М., Орлов А.И. Роль методологических исследований в разработке методоориентированных экспертных систем (на примере оптимизационных и статистических методов). - В сб.: "Вопросы применения экспертных систем". - Минск: Центрсистем, 1988, с.151-160.

4. Основные идеи статистики объектов нечисловой природы, перспективы их алгоритмизации и применения для анализа статистических данных о научных организациях России

   С начала 70-х годов в России активно развивается статистика объектов нечисловой природы, известная также как статистика нечисловых данных или нечисловая статистика. В развитии этого сравнительно нового направления прикладной математической статистики приоритет принадлежит российским ученым.
   К настоящему времени статистика объектов нечисловой природы с теоретической точки зрения достаточно хорошо развита, основные идеи, подходы и методы описаны и изучены в математическом плане, в частности, доказано достаточно много теорем. Однако эта теория пока недостаточно апробирована. Это связано как со сравнительной молодостью статистики объектов нечисловой природы, так и с общеизвестными особенностями организации науки в 80-е года, когда не было достаточных стимулов к тому, чтобы теоретики занялись широким внедрением своих результатов. Однако за 15 лет развития статистики объектов нечисловой природы накопилось немало фактов, подтверждающих уверенность в ее большой практической значимости.
   Показатели науки могут быть использованы для применения рассматриваемых теоретических достижений на практике. Представляется, более того, что именно при анализе столь важных с практической точки зрения данных, как данные о научном потенциале, именно методы статистики объектов нечисловой природы окажутся наиболее полезными, поскольку существенная часть данных носит нечисловой (в частности, качественный) характер.
   Цель рассматриваемого научного направления - разработать новые статистические методы анализа нечисловых данных в технико-экономических и социально-экономических исследованиях. На основе подходов и результатов статистики объектов нечисловой природы разработать методическое, математическое и программное обеспечение для социологических, маркетинговых, экспертных и прогнозных исследований.
   Исходный объект в математической статистике - это выборка. В вероятностной теории статистики выборка - это совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике ( той, что преподают студентам) элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике - объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.
   Примерами объектов нечисловой природы являются: качественные признаки, например, пол человека или тип научной организации, вообще результат отнесения объекта в одну из заданных категорий (градаций); множество, например, совокупность научных организаций, занимающихся определенной тематикой, или - зона поражения при инфаркте миокарда; слова, предложения, тексты, которые в памяти компьютера кодируются, как известно, с помощью цифр 0 и 1, но числами от этого не становятся; вектор, координаты которого - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности (форма No.1-наука) или заполненная компьютеризированная история болезни, в которой часть признаков носит качественный характер, а часть - количественный; ответы на вопросы социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; упорядочение экспертом образцов продукции при оценке её технического уровня и конкурентоспособности или заявок на проведение научных работ при проведении конкурсов на выделение грантов; результаты контроля качества продукции по альтернативному признаку ("годен" - "брак") или контроля выполнения заданий по научно-техническим программам, вообще планов научных работ (в роли единицы продукции выступает конкретная позиция плана); разбиения объектов на группы сходных между собой (кластеры); ранжировки, например, упорядочения экспертами научных проектов по степени предпочтения (на одной из стадий процесса распределения грантов); толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки; результаты парных сравнений и т.д. Интервальные данные (см. выше) тоже можно рассматривать как пример объектов нечисловой природы.
   Следует отметить, что в статистике объектов нечисловой природы, как и в других областях прикладной математической статистики и прикладной математики вообще, одна и та же математическая схема может с успехом применяться и в технических исследованиях, и в медицине, и в социологии, и при изучении научного потенциала.
   В чем принципиальная новизна статистики объектов нечисловой природы? В классической математической статистике постоянно используется операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.
   Под влиянием запросов прикладных исследований в технических, медицинских и социально-экономических науках мы развиваем статистику объектов нечисловой природы. Так, более чем двадцатилетний (с 1970 г.) опыт проведения социологических и маркетинговых исследований, а в последнее время - анализа и прогнозирования потребительских цен и индекса инфляции, исследований рынка товаров народного потребления, образовательных услуг, программного обеспечения, - привел к постановкам ряда нерешенных задач в области эконометрических методов анализа и прогнозирования на основе нечисловых данных.
   Теоретические исследования в области статистических и экспертных методов социально-экономических исследований публиковались А.И.Орловым с 1974 г. [1]. Они проводились в тесном контакте с сотрудниками Института социологии и ЦЭМИ РАН и отражены в монографии [2].
   В 1979 г. в связи с потребностями теории экспертных оценок была осознана необходимость выделения самостоятельного направления - статистики объектов нечисловой природы [3,4]. Этот термин был внесен также в корректуру предисловия к монографии [2], в которой сведены результаты первого этапа изучения статистики в конкретных пространствах нечисловой природы, прежде всего результаты, связанные с теорией измерений и средними величинами, случайными и нечеткими множествами, парными сравнениями.
   За прошедшие 15 лет многими авторами получено весьма много интересных теоретически и полезных практически результатов в статистике объектов нечисловой природы. Работы координировала подкомиссия "Статистика объектов нечисловой природы" Научного Совета АН СССР по комплексной проблеме "Кибернетика", созданная в 1979 г. Различные направления статистики объектов нечисловой природы наиболее подробно охватывает сборник обзоров [5], выпущенный в 1985 г. упомянутой подкомиссией совместно с Институтом социологии РАН (в то время - Институт социологических исследований АН СССР). Из недавних обзоров назовем [6-8]. В 1995 г. в журнале "Заводская лаборатория" публикуются подробные обзоры по различным конкретным пространствам объектов нечисловой природы [9,10].
   Однако приходится с сожалением констатировать, что ряд теоретических разработок, описанных, в частности, в упомянутом сборнике 1985 г., пока не доведен до уровня методик, математического и программного обеспечения. Этим целесообразно заняться, в частности, в рамках предлагаемой работы по алгоритмизации и применению основных идей, подходов и методов рассматриваемого научного направления для анализа статистических данных о научных организациях России.
   Ожидаемые результаты работы таковы. На основе современных представлений о проведении социологических и экспертных исследований и о методах анализа собранных данных будут разработаны соответствующие математико-статистические методы, создано математическое и программное обеспечение. На основе двадцатилетнего опыта работы научного семинара "Математические методы в экспертных оценках" (название семинара в различные годы несколько менялось; в частности, в течение нескольких лет добавлялись слова "... и нечисловая статистика") будет разработана современная методика экспертного исследования. Современные методы статистического и экспертного прогнозирования будут применены, в частности, для прогнозирования потребительских цен и индекса инфляции с использованием разработанного математического и программного обеспечения с целью применения при изучении положения научных работников и дефляторов, используемых при изучении динамики науки России. Методическое, математическое и программное обеспечение по социологическим, маркетинговым, экспертным, прогнозным исследованиям позволит проводить подобные исследования на современном уровне. Поскольку нечисловые данные составляют около 90% данных в социологии и 70% - в экономике, то теоретические исследования в статистике нечисловых данных позволят получить новые результаты в той центральной области эконометрики, в которой отечественные работы имеют приоритет на мировом уровне.
   Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида.
   Первой обсудим проблему определения средних величин. В рамках репрезентативной теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения [2,11]. В классической математической статистике средние величины вводят с помощью операций сложения ( выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операции сложения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического среднего это - задача минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственным элементом пространства, а состоять из множества таких элементов, которое может оказаться и пустым. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. сходимость эмпирических средних к теоретическим [2,12].
   Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики [12]. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в интервальной статистике.
   В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В [4] были предложены непараметрические оценки плотности в пространствах произвольной природы. В [13] было предложено еще несколько видов таких оценок, проведено изучение таких оценок, в том числе введенных в [4], в частности, установлена их состоятельность. Затем была изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном случае с той, что имеет быть в классической теории для числовых случайных величин [14].
   Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории [12,15] - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории [13,14,16] - и тогда используются алгоритмы на основе непараметрических оценок плотности.
   Для проверки гипотез могут быть использованы статистики интегрального типа. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке [17], приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [18], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те случайные (с общей точки зрения), что были связаны с конечномерным пространством.
   Представляют интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы, в частности, со статистикой нечетких множеств [19-21], со случайными множествами [22-23] (следует отметить, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств [24-25]), с непараметрической теорией парных сравнений [26-28], с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы [2,29]. Сводка основных результатов, касающихся конкретных пространств нечисловой природы, дана в [30] (по состоянию на начало 80-х годов).
   Для анализа данных о научных организациях России, об их научном потенциале весьма важны методы классификации. Ряд вопросов, связанных с ныне используемыми классификаторами в области статистики науки обсуждался выше. Проблемами теории и практики классификации в нашей стране занимались многие ученые. С 1984 г. в рамках Союза научных и инженерных обществ действует "Комиссия по классификации" (председатель - член-корреспондент РАН Г.Б. Бокий), объединившая усилия нескольких десятков специалистов различных научных областей.
   Итоги десяти лет работы этой комиссии показали, в частности, что наиболее естественно ставить и решать задачи классификации в рамках статистики объектов нечисловой природы. Это касается как распознавания образов с учителем (дискриминантного анализа), так и распознавания образов без учителя (кластерного анализа). Современное состояние дискриминантного и кластерного анализа отражено с точки зрения статистики объектов нечисловой природы в работах [14-16,31-37].
   Статистические методы анализа нечисловых данных приспособлены для применения в социологии и экспертных оценках, поскольку в этих областях до 90 % данных являются нечисловыми. Выше продемонстрированы перспективы развития современных выборочных методов анализа данных о научном потенциале на основе подходов и теорем статистик объектов нечисловой природы и интервальной статистики. Следующий раздел посвящен экспертным оценкам.
   Отметим, что некоторые из высказанных нами [38] десять лет назад предложений по применению статистики объектов нечисловой природы в задачах изучения научного потенциала и управления наукой продолжают сохранять интерес.

Литература к разделу 4

   1. Орлов А.И. Допустимые средние в некоторых задачах экспертных оценок и агрегирования показателей качества. - В сб.: "Многомерный статистический анализ в социально-экономических исследованиях", М.: Наука, 1974, с.388-393.
   2. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука,1979, 296 с.
   3. Орлов А.И. Статистика объектов нечисловой природы в экспертных оценках. - Тезисы докладов III Всесоюзной научной школы "Прогнозирование научно-технического прогресса", ч.1. - Минск, 1979, с.160-161.
   4. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки. - В сб.: "Экспертные оценки. Вопросы кибернетики, вып.58". - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика"., 1979, с.17-33.
   5. Анализ нечисловой информации в социологических исследованиях (под ред. В.Г. Андреенкова, А.И.Орлова, Ю.Н. Толстовой).- - М.: Наука, 1985, 220 с.
   6. Орлов А.И. Статистика объектов нечисловой природы. Обзор/ Заводская лаборатория, 1990, т.56, No.3, с.76-83.
   7. Orlov A.I. On the Development of the Statistics of Nonnumerical Objects. - In: DESIGN OF EXPERIMENTS AND DATA ANALYSIS: NEW TRENDS AND RESULTS. Ed. by prof. E.K. Letzky. - Moscow: ANTAL, 1993. P.52-90.
   8. Орлов А.И. Нечисловая статистика/ Наука и технология в России, 1994, No.3 (5), с. 5-6.
   9. Орлов А.И. Объекты нечисловой природы/ Заводская лаборатория. 1995. Т.61. No.3.
   10. Орлов А.И. Вероятностные модели объектов нечисловой природы/ Заводская лаборатория. 1995. Т.61. No.5.
   11. Орлов А.И. Связь между средними величинами и допустимыми преобразованиями шкалы/Математические заметки, 1981, т.30, No.4, с.361-368.
   12. Орлов А.И. Асимптотика решений экстремальных статистических задач. - В сб.: "Анализ нечисловых данных в системных исследованиях. Труды ВНИИСИ, 1982, вып.10." - М.: ВНИИСИ, 1982, с.4-12.
   13. Орлов А.И. Непараметрические оценки плотности в топологических пространствах. - В сб.: Прикладная статистика. - М.: Наука, 1983, с.12-40.
   14. Орлов А.И. Классификация объектов нечисловой природы на основе непараметрических оценок плотности. - В сб.: "Проблемы компьютерного анализа данных и моделирования: Сб. науч. ст." - Минск: Белорусский государственный университет, 1991, с.141-148.
   15. Орлов А.И. Некоторые неклассические постановки в регрессионном анализе и классификации. - В сб.: "Программно-алгоритмическое обеспечение анализа данных в медико-биологических исследованиях". - М.: Наука, 1987, с.27-40.
   16. Орлов А.И. Заметки по теории классификации/ Социология: методология, методы, математические модели. 1992. No.2. С.28-50;
   17. Орлов А.И. Асимптотическое поведение статистик интегрального типа/ Доклады АН СССР, 1974, т.219, No.4, с.808-811.
   18. Орлов А.И. Асимптотическое поведение статистик интегрального типа. - В сб. "Вероятностные процессы и их приложения". - М.: МИЭМ, 1989, с.118-123.
   19. Орлов А.И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980, 64 с.
   20. Орлов А.И. Математика нечеткости/ Наука и жизнь, 1982, No.7, с.60-67.
   21. Orlov A.I. The connection between fuzzy and random sets. - In: Moscow International conference "Fuzzy sets in Informatics" (Moscow, September 20-23, 1988). Abstracts. - М.: ВЦ АН СССР, 1988, с.51-52.
   22. Орлов А.И. Случайные множества: законы больших чисел, проверка статистических гипотез/Теория вероятностей и ее применения, 1978, т.23, вып.2, с.462-464.
   23. Орлов А.И. Случайные множества с независимыми элементами (люсианы) и их применения. - В сб.: "Алгоритмическое и программное обеспечение прикладного статистического анализа". - М.: Наука, 1980, с. 287-308.
   24. Орлов А.И. Нечеткие и случайные множества. - В сб.: Прикладной многомерный статистический анализ. - М.: Наука, 1978, с.262-280.
   25. Орлов А.И. Теория нечеткости и случайные множества. - В сб.: "Математическое моделирование в психологии. Вопросы кибернетики, вып.50". - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979, с.35-43.
   26. Орлов А.И. Проверка согласованности мнений экспертов в модели независимых парных сравнений. - В сб.: Экспертные оценки в системном анализе. Труды ВНИИСИ, 1979, вып.4." - М.: ВНИИСИ, 1979, с.37-46.
   27. Орлов А.И. Парные сравнения в асимптотике Колмогорова. - В сб.: "Экспертные оценки в задачах управления". - М.: ИПУ, 1982, с.58-66.
   28. Орлов А.И., Рыданова Г.В. О некоторых результатах статистики объектов нечисловой природы. - В сб.: "Материалы I Всесоюзной школы-семинара. Программно-алгоритмическое обеспечение анализа данных в медико-биологических исследованиях (3-6 июня 1985 г., Пущино)." - Пущино: Биологический центр АН СССР, 1986, с.61-71.
   29. Орлов А.И., Раушенбах Г.В. Метрика подобия: аксиоматическое введение, асимптотическая нормальность. - В сб.: "Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов." - Пермь: Пермский государственный университет, 1986, с.148-157.
   30. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981, 80 с.
   31. Орлов А.И. Некоторые вероятностные вопросы теории классификации. - В сб.: Прикладная статистика. - М.: Наука, 1983, с.166-179.
   32. Орлов А.И. Математические методы классификации, статистика объектов нечисловой природы и медико-биологические исследования. - В сб.: "Доклады Московского Общества Испытателей Природы 1984 г. Общая биология. Цитогенетический и математический подходы к изучению биосистем". - М.: Наука, 1986, с.145-150.
   33. Орлов А.И. Границы применимости вероятностных моделей в задачах классификации. - В сб.: "Доклады Московского Общества Испытателей Природы 1984 г. Общая биология. Цитогенетический и математический подходы к изучению биосистем". - М.: Наука, 1986, с.179-182.
   34. Орлов А.И. Классификация объектов нечисловой природы. - В сб. "Теория и практика классификации и систематики в народном хозяйстве". Тезисы докладов Всесоюзного научно-технического симпозиума с международным участием (Пущино, 17-19 декабря 1990 г.). - М.: ВИНИТИ, 1990, с.93-94.
   35. Орлов А.И. О сравнении алгоритмов классификации по результатам обработки реальных данных. - В сб." Доклады Московского Общества Испытателей Природы 1985 г. Общая биология. Новые данные исследований структуры и функций биологических систем". - М.: Наука, 1987, с.53-56.
   36. Орлов А.И. Некоторые вероятностные вопросы кластер-анализа. - В сб." Доклады Московского Общества Испытателей Природы 1985 г. Общая биология. Новые данные исследований структуры и функций биологических систем". - М.: Наука, 1987, с.79-82.
   37. Орлов А.И. Распределение показателя Мешалкина качества алгоритма классификация и метод проверки его применимости. - В сб.: "IV Всесоюзная научно-техническая конференция "Применение многомерного статистического анализа в экономике и оценке качества продукции". Тезисы докладов. I часть. - Тарту, Тартуский государственный университет, 1989, с.133-134.
   38. Орлов А.И. Организационные методы управления наукой и статистика объектов нечисловой природы. - Тезисы докладов Всесоюзного симпозиума "Медицинское науковедение и автоматизация информационных процессов". - М., 1984, с.215-216.

А.И.Орлов,
д.т.н., профессор МГТУ им. Н.Э.Баумана,
академик Российской академии статистических методов

Окончание следует...

*      *      *

   На сайте http://antorlov.chat.ru или его зеркале http://www.newtech.ru/~orlov Вы можете найти:
   1. Полезные макросы для Microsoft Word 97/2000 для верстки в Word книжек размером в половину листа, обьединения множества файлов в один, создания каталогов своих файлов, извлечения из недр Word'а красивых значков.
   2. Макрос для Microsoft Word 97/2000 - Конвертор "Число-текст", обладающий возможностью автоматического обновления вставленных текстовых расшифровок при изменении значений исходных чисел.
   3. Учебник профессора А.И.Орлова по менеджменту.
   4. Статьи А.И.Орлова по актуальным вопросам статистики и экономики.
   5. Лекцию об устройстве ядерных реакторов.
   6. Информацию об Институте высоких статистических технологий, который занимается развитием, изучением и внедрением наиболее современных методов анализа технических, экономических, социологических, медицинских данных.
   Страница рассылки - http://antorlov.chat.ru/ivst.htm или http://www.newtech.ru/~orlov/ivst.htm.
   Если Вы живете в Москве, то для доступа к сайту www.newtech.ru/~orlov Вы можете воспользоваться бесплатным демо-доступом компании NewTech. Телефоны: (095)234-94-49, (095)956-37-46. Login: demo (или imt). Password: test. Вход под этим логином абсолютно бесплатный и открыт круглосуточно. Сеанс связи неограничен. Одновременно возможен вход не более 5 пользователей по демо-доступу. Если Вы видите сообщение об отказе в авторизации, значит, Вы - 6-й пользователь, входящий под этим логином, - повторите попытку позже. Доступ с использованием программы Netscape Navigator требует указания DNS: Primary DNS: 212.16.0.1, Secondary DNS: 193.232.112.1. Отказ сервера в принятии пароля не должен служить основанием для прекращения дозвона.
   На сайте http://karamurza.chat.ru представлена книга видного современного философа и политолога С.Г.Кара-Мурзы "Опять вопросы вождям", которая является глубоким научным исследованием проблем западного и российского общества. Данная книга может серьезно повысить образовательный уровень интересующихся политологическими и социологическими проблемами.
   Из книги Максима Калашникова "Битва за Небеса", представленной на сайте http://skywars.chat.ru, Вы узнаете о том, какими должны были стать воздушно-космические силы СССР 2000 года и прочтете о русской авиации 20 века. Вы познакомитесь с планом построения страны-сверхкорпорации, которой так боялись США, узнаете, как и кем планомерно уничтожалась советская цивилизация.
   Книга "Тайны и секреты компьютера", вышедшая в издательстве "Радио и связь", предназначена для тех, кто самостоятельно осваивает мир информационных технологий. Программирование в среде Microsoft Office, создание сайтов, устройство сети Интернет, структура системного реестра Windows и файловой системы, сеть Fidonet, строение жидкокристаллических дисплеев и проблема наличия различных кодировок русского языка, - про все это рассказывается в ней. Многообразие тем и легкий стиль изложения сделают ее вашим спутником на долгое время, и вы всегда сможете найти в ней нужную именно в данный момент информацию. Если Вы интересуетесь компьютерными технологиями, желали бы расширить свои знания и умения в этой области, то она Вам наверняка понравится. На сайте http://comptain.chat.ru, посвященном этой книге, вы можете ознакомиться с ее оглавлением и аннотацией, прочитать некоторые главы, купить в Интернет-магазине.

Удачи Вам и счастья!



http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться Рейтингуется SpyLog

В избранное