← Май 2003 → | ||||||
1
|
2
|
3
|
4
|
|||
---|---|---|---|---|---|---|
6
|
7
|
8
|
10
|
11
|
||
13
|
14
|
15
|
16
|
17
|
18
|
|
20
|
21
|
22
|
23
|
24
|
25
|
|
27
|
28
|
29
|
30
|
31
|
За последние 60 дней 9 выпусков (1-2 раза в неделю)
Сайт рассылки:
http://orlovs.pp.ru/ivst.php
Открыта:
29-06-2000
Адрес
автора: science.humanity.econometrika-owner@subscribe.ru
Статистика
+1 за неделю
Эконометрика - выпуск 129
Информационный Канал Subscribe.Ru |
Здравствуйте, уважаемые подписчики! * * * * * * *
В этом, 129-м выпуске рассылки "Эконометрика" от 12 мая 2003 г. вашему вниманию предлагается последний по времени написания (конец 2002 г.) научно-исследовательский отчет по эконометрике, выполненный в Институте высоких статистических технологий и эконометрики. Он дает представление о работах, которыми занимаетется Институт в настоящее время. В отчете рассмотрены методологические проблемы развития эконометрики, некоторые ее теоретические задачи и прикладные вопросы. В первом разделе современные эконометрические методы рассматриваются как инструмент инженера и менеджера. Проанализировано развитие эконометрических методов, выделены "точки роста" этой научной дисциплины. Рассмотрены основные идеи статистики объектов нечисловой природы – наиболее бурно растущей ветви эконометрики. Второй раздел посвящен эконометрической поддержке принятия решений в контроллинге – новом направлении в управлении предприятиями. Рассмотрены основные черты современной эконометрики, выделены эконометрические инструменты контроллинга. Введено понятие "высокие эконометрические технологии", обсуждены их возможности для решения задач управления и контроллинг. Много внимания уделяется проблемам ускорения внедрения "высоких эконометрических (статистических) технологий". В третьем разделе рассматривается одна из конкретных эконометрических проблем - проблема проверки однородности двух независимых выборок. Показаны принципиальные недостатки широко распространенного критерия Стьюдента. Вместо него для проверки равенства математических ожиданий предлагается использовать критерий Крамера-Уэлча. Рассматриваются непараметрические методы проверки однородности. Третий раздел полностью опубликован в работе: Орлов А.И. О проверке однородности двух независимых выборок - Журнал "Заводская лаборатория". 2003. Т.69. No.1. С.55-60. Он содержит много формул и поэтому в рассылке опущен. Четвертый раздел посвящен применениям эконометрики. Дана классификация эконометрических методов, используемых на промышленном предприятии. Рассмотрены эконометрические компьютерные технологии. Проанализировано развитие эконометрических методов сертификации в России. Информационные системы управления предприятием изучены в плане решения задач контроллинга и роли эконометрических методов в подобных системах. Многие включенные в отчет соображения опубликованы в работе: Орлов А.И., Гуськова Е.А. Информационные системы управления предприятием в решении задач контроллинга. – Контроллинг, 2003, No.1(5), с.52-59. Полученные результаты используются в учебном процессе МГТУ им. Н.Э.Баумана при преподавании курсов "Эконометрика", "Прогнозирование и технико-экономическое планирование на предприятии", "Экономика предприятия" и др. Отчет займет три выпуска рассылки - этот и два следующих. Все вышедшие выпуски Вы можете посмотреть в Архиве рассылки по адресу http://www.subscribe.ru/archive/science.humanity.econometrika. * * * * * * *
О выходе и подготовке книг А.И.Орлова Многие материалы рассылки получают отражение в публикациях. Поэтому даем краткую информацию о выпушенных и готовящихся к выпуску книгах А.И.Орлова. Более подробная информация будет представлена в дальнейших выпусках рассылки. 1. Орлов А.И. Эконометрика. Учебник для вузов. – 2-е изд., переработанное и дополненное. – М.: Издательство "Экзамен", 2003. – 576 с. Второе издание подписано в печать через 9 месяцев после первого. Это свидетельствует о большом интересе читателей. 2. Федосеев В.Н., Орлов А.И., Ларионов В.Г., Козьяков А.Ф. Управление промышленной и экологической безопасностью: Учебное пособие. - М.: Изд-во Университета Российской Академии Образования, 2002 (1 изд.), 2003 (2 изд.). – 220 с. 3. Орлов А.И., Федосеев В.Н. Менеджмент в техносфере. Учебное пособие. – М.: Издательство "Мастерство", 2003 (25 п.л.). В середине марта 2003 г. "прошел" сигнальный экземпляр. 4. Орлов А.И. Теория принятия решений. – М.: Издательство "Экзамен", 2003 (план). – 44 п.л. Рукопись сдана в издательство 5 марта 2003 г. 5. Орлов А.И. Прикладная статистика. - М.: Издательство "Экзамен", 2004. Рукопись готовится к печати. Срок сдачи рукописи по плану – 30 сентября 2003 г. * * * * * * *
Отчет о научно-иссследовательской работе "Разработка новых эконометрических методов управления предприятием" (заключительный) Список исполнителей Докт. техн. наук, профессор А.И.Орлов (разд.1-4) Реферат В отчете рассмотрены методологические проблемы развития эконометрики, некоторые ее теоретические задачи и прикладные вопросы. В первом разделе современные эконометрические методы рассматриваются как инструмент инженера и менеджера. Проанализировано развитие эконометрических методов, выделены "точки роста" этой научной дисциплины. Рассмотрены основные идеи статистики объектов нечисловой природы - наиболее бурно растущей ветви эконометрики. Второй раздел посвящен эконометрической поддержке принятия решений в контроллинге - новом направлении в управлении предприятиями. Рассмотрены основные черты современной эконометрики, выделены эконометрические инструменты контроллинга. Введено понятие "высокие эконометрические технологии", обсуждены их возможности для решения задач управления и контроллинг. Много внимания уделяется проблемам ускорения внедрения "высоких эконометрических (статистических) технологий". В третьем разделе рассматривается одна из конкретных эконометрических проблем - проблема проверки однородности двух независимых выборок. Показаны принципиальные недостатки широко распространенного критерия Стьюдента. Вместо него для проверки равенства математических ожиданий предлагается использовать критерий Крамера-Уэлча. Рассматриваются непараметрические методы проверки однородности Четвертый раздел посвящен применениям эконометрики. Дана классификация эконометрических методов, используемых на промышленном предприятии. Рассмотрены эконометрические компьютерные технологии. Проанализировано развитие эконометрических методов сертификации в России. Информационные системы управления предприятием изучены в плане решения задач контроллинга и роли эконометрических методов в подобных системах. Полученные результаты используются в учебном процессе МГТУ им. Н.Э.Баумана при преподавании курсов "Эконометрика", "Прогнозирование и технико-экономическое планирование на предприятии", "Экономика предприятия" и др. Содержание Введение Введение Цели, содержание и основные требования к проведению НИР: На основе современных подходов к эконометрике разработать и исследовать новые методы анализа социально-экономических данных, прежде всего данных нечисловой природы. Получить новые фундаментальные результаты в проблеме проверки однородности эконометрических данных. Изучить возможности применения полученных результатов в задачах управления предприятием. Имеющийся научный задел: обзор существующих эконометрических концепций, многолетний опыт теоретической и прикладной деятельности в различных областях эконометрики. Основные результаты НИР. Проведение данной научно-исследовательской работы нацелено на получение следующие результаты: - концепция современного состояния и перспектив развития эконометрики, анализ "точек роста", - разработка методологических основ и основных принципов создания эконометрического обеспечения для систем контроллинга на предприятиях; - разработка системы моделей и адекватных им эконометрических методов проверки однородности конкретных экономических данных; - разработка новых эконометрических методов в управлении качеством, и применении информационных систем управления предприятиями. Научная, научно-техническая и практическая ценность результатов НИР: разработаны методология современного эконометрического моделирования; новые эконометрические методы, нацеленные на применение при управлении предприятием; основы эконометрического обеспечения процессов принятия решений при управлении предприятием, в частности, в системах контроллинга. Результаты работы будут использованы в учебном процессе при преподавании курсов "Эконометрика", "Математические методы прогнозирования", "Прогнозирование и ТЭП в отрасли" и др. 1. Современные эконометрические методы В настоящем разделе дается критический анализ современного состояния эконометрики и прикладной статистики, обсуждаются тенденции развития статистических методов, выделяются пять основных "точек роста". Современное состояние в эконометрике, как и в других областях, определяется прошлым. Кратко рассмотрим историю эконометрики и прикладной статистики, начав с их практической пользы. 1.1. Что дает прикладная статистика народному хозяйству? Так называлась статья [1], в которой приводились многочисленные примеры успешного использования методов эконометрики и прикладной математической статистики при решении практических задач. Бесспорно совершенно, что методы эконометрики и прикладной статистики успешно применяются в различных отраслях народного хозяйства, практически во всех областях науки. Согласно докладу [2], в 1988 г. затраты в СССР на статистический анализ данных оценивались в 2 миллиарда рублей ежегодно. Большая практическая значимость эконометрики и прикладной статистики, особенно в экономике, менеджменте, технических исследованиях и разработках, оправдывает целесообразность развития их методологии, в которых эти области научной и прикладной деятельности рассматривалась бы как целое, "с высоты птичьего полета". Чтобы иметь возможность обсуждения тенденций развития эконометрики и статистических методов в XXI веке, необходимо хотя бы кратко рассмотреть их историю. Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (в Книге Чисел). С математической точки зрения они сводились к подсчетам числа попаданий значений наблюдаемых признаков в определенные градации. В дальнейшем результаты стали представлять в виде таблиц и диаграмм, как это и сейчас делают Госкомстат РФ (Российское статистическое агентство). Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц. Однако нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого века (типовой монографией тех времен можно считать книгу [3], которая в настоящее время ещё легко доступна). Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей, однако в некоторых из них имеются неточные утверждения, что заставило одного из крупнейших ученых ХХ в. академика Украинской АН Б.В. Гнеденко включить в очередное издание своего курса [4] главу по истории математики случайного. В 1794 г. (по другим данным - в 1795 г.) К. Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты астероида Церера - для борьбы с ошибками астрономических наблюдений. В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец А. Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком М.В. Остроградским и применялись в российской армии ещё в середине 19 в. Статистические методы управления качеством, сертификации и классификации продукции и сейчас весьма актуальны. 1.2. О развитии эконометрических методов Современный этап развития прикладной статистики можно отсчитывать с 1900 г., когда англичанин К. Пирсон основан журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми из т.н. семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента. Разработанную в первой трети ХХ в. теорию называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым конкретное распределение результатов наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако в подавляющем большинстве реальных ситуаций подобных моделей нет, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция. Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н. Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [5]. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, остающихся далекими от новых веяний в статистике. Почему так происходит? Чтобы попытаться ответить на этот вопрос, обратимся к одной из статистических наук - наукометрии, в которой статистическими методами анализируется развитие научных исследований. Проведенный несколько лет назад наукометрический анализ прикладной статистики как области научно-практической деятельности (в рамках движения за создание Всесоюзной статистической ассоциации, учрежденной в 1990 г.) показал, в частности, что актуальными для специалистов в настоящее время являются не менее чем 100 тысяч публикаций (подробнее см. статьи [6,7]). Реально же каждый из них знаком с существенно меньшим количеством книг и статей. Так, в наиболее солидное и обширное из научных изданий в области эконометрики и прикладной статистики - трехтомник Кендалла и Стьюарта [8-10] - включено всего около 2 тысяч литературных ссылок. При всей очевидности соображений о многократном дублировании ценных идей в различных публикациях приходится признать, что каждый специалист по эконометрике и прикладной статистике владеет лишь небольшой частью накопленных в этой области знаний. Не удивительно, что приходится постоянно сталкиваться с игнорированием или повторением ранее полученных результатов, с уходом в тупиковые (с точки зрения практики) направления исследований, с беспомощностью при обращении к реальным данным, и т.д. Все это - одно из проявлений адапционного механизма торможения развития науки, которая оказывается не в состоянии даже осмыслить ранее полученные результаты. Об этом печальном явлении еще более 30 лет назад писали В.В.Налимов и другие науковеды (см., например, [11]). Традиционный предрассудок состоит в том, что каждый новый результат, полученный исследователем - это кирпич, вложенный в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом. Реальная ситуация - совсем иная. Как известно, большинство книг в центральных библиотеках никто никогда не читал. Так что с новым результатом, скорее всего, познакомятся лишь несколько человек, да и то поверхностно, а использовать его будут, в лучшем случае, сам автор в дальнейших работах и его ученики. Основа профессиональных знаний экономиста, менеджера, исследователя и инженера закладывается в период обучения. Затем они пополняются в том узком направлении, в котором работает специалист. Следующий этап - их тиражирование новому поколению. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, по экспертной оценке ряда специалистов, по своему научному и методологическому уровню в основном соответствуют 40-60-м годам ХХ в. А потому тем же годам соответствует большинство вновь публикуемых исследований и тем более - прикладных работ. Одновременно приходится признать, что результаты, которым не повезло, поскольку они не вошли в учебники, независимо от их научной и (или) прикладной ценности почти все забываются и не участвуют в научном процессе. Активно продолжается развитие тупиковых направлений. В частности, к ним относятся работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам (см., например, государственный стандарт [12]). Поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы, о которых речь пойдет ниже. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим. Отечественная литература по эконометрике и прикладной статистике столь же необозрима, как и мировая. Только в секции "Математические методы исследования" журнала "Заводская лаборатория" с 1960-х годов опубликовано более 1000 статей. Не будем даже пытаться перечислять коллективы исследователей или основные монографии в этой области. Отметим только одно издание. По нашему мнению, наилучшей отечественной книгой по прикладной статистике является сборник статистических таблиц Л.Н. Большева и Н.В.Смирнова [13] с подробными комментариями, играющими роль сжатого учебника и справочника. 1.3. "Точки роста" эконометрики и прикладной статистики Основная цель настоящего подраздела - выделить и обсудить "точки роста" эконометрики и прикладной статистики, те их направления, которые представляются перспективными в будущем. При описании современного этапа развития эконометрических и статистических методов целесообразно выделить пять актуальных направлений, в которых развивается современная прикладная статистика, т.е. пять "точек роста": - непараметрика (т.е. непараметрическая статистика), - робастность, - бутстреп, - статистика интервальных данных, - статистика нечисловых данных (в несколько иной терминологии - статистика объектов нечисловой природы). В первой трети ХХ в., одновременно с параметрической статистикой, в работах Спирмена и Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ века. В 30-е годы появились работы А.Н.Колмогорова и Н.В.Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена. Эти критерии основаны на использовании так называемого эмпирического процесса. (Как известно, эмпирический процесс - это разность между эмпирической и теоретической функциями распределения, умноженная на квадратный корень из объема выборки.) В работе А.Н.Колмогорова 1933 г. изучено предельное распределение супремума модуля эмпирического процесса, называемого сейчас критерием Колмогорова. Затем Н.В. Смирнов исследовал супремум и инфимум эмпирического процесса, а также интеграл (по теоретической функции распределения) квадрата эмпирического процесса. Следует отметить, что встречающееся иногда в литературе словосочетание "критерий Колмогорова-Смирнова" некорректно, поскольку эти два статистика никогда не печатались вместе и не изучали один и тот же критерий схожими методами. Корректно сочетание "критерий типа Колмогорова-Смирнова", применяемое для обозначения критериев, основанных на использовании супремума функций от эмпирического процесса. После второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. Большую роль сыграли работы Ф. Вилкоксона и его школы. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических. Однако для обеспечения широкого внедрения непараметрических методов необходимо провести еще целый комплекс теоретических и пилотных (т.е. пробных) прикладных работ. Все большую роль играют непараметрические оценки плотности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа). В нашей стране непараметрические методы получили достаточно большую известность после выхода в 1965 г. первого издания упомянутого выше сборника статистических таблиц Л.Н. Большева и Н.В.Смирнова [13], содержащего подробные таблицы для основных непараметрических критериев. Тем не менее параметрические методы всё еще популярнее непараметрических, особенно среди тех прикладников, кто слабо знаком со статистическими методами. Неоднократно публиковались экспериментальные данные, свидетельствующие о том, что распределения реально наблюдаемых случайных величин, в частности, ошибок измерения, в подавляющем большинстве случаев отличны от нормальных (гауссовских). Тем не менее теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики - применять подобные методы и модели. Другими словами, "ищут под фонарем, а не там, где потеряли". Если в параметрических постановках на данных накладываются слишком жесткие требования - их функции распределения должны принадлежать определенному параметрическому семейству, то в непараметрических, наоборот, излишне слабые - требуется лишь, чтобы функции распределения были непрерывны. При этом игнорируется априорная информация о том, каков "примерный вид" распределения. Априори можно ожидать, что учет этого "примерного вида" улучшит показатели качества статистических процедур. Развитием этой идеи является теория устойчивости (робастности) статистических процедур, в которой предполагается, что распределение исходных данных мало отличается от некоторого параметрического семейства. За рубежом эту теорию разрабатывали П.Хубер, Ф.Хампель и многие другие. Из монографий на русском языке, трактующих о робастности и устойчивости статистических процедур, самой ранней и наиболее общей была книга [14], следующей - монография [15]. Частными случаями реализации идеи робастности (устойчивости) статистических процедур являются статистика объектов нечисловой природы и статистика интервальных данных. Имеется большое разнообразие моделей робастности в зависимости от того, какие именно отклонения от заданного параметрического семейства допускаются. Среди теоретиков наиболее популярной оказалась модель выбросов, в которой исходная выборка "засоряется" малым числом "выбросов", имеющих принципиально иное распределение. Однако эта модель представляется "тупиковой", поскольку в большинстве случаев большие выбросы либо невозможны из-за ограниченности шкалы прибора либо интервала изменения измеряемой величины, либо от них можно избавиться, применяя лишь статистики, построенные по центральной части вариационного ряда. Кроме того, в подобных моделях обычно считается известной частота засорения, что в сочетании со сказанным выше делает их малопригодными для практического использования. Более перспективным представляется, например, модель малых отклонений распределений, в которой расстояние между распределением каждого элемента выборки и базовым распределением не превосходит заданной малой величины, и модель статистики интервальных данных. Другое из упомянутых выше направлений - бутстреп - связано с интенсивным использованием возможностей вычислительной техники. Основная идея состоит в том, чтобы теоретическое исследование заменить вычислительным экспериментом. Вместо описания выборки распределением из параметрического семейства строим большое число "похожих" выборок, т.е. "размножаем" выборку. Затем вместо оценивания характеристик (и параметров) и проверки гипотез на основе свойств теоретического распределения решаем эти задачи вычислительным методом, рассчитывая интересующие нас статистики по каждой из "похожих" выборок и анализируя полученные при этом распределения. Например, вместо того, чтобы теоретическим путем находить распределение статистики, доверительные интервалы и другие характеристики, моделируют большое число выборок, похожих на исходную, затем рассчитывают соответствующие значения интересующей исследователя статистики и изучают их эмпирическое распределение. Квантили этого распределения задают доверительные интервалы, и т.д. Термин "бутстреп" мгновенно получил широкую известность после первой же статьи Б.Эфрона 1979 г. по этой тематике. Он сразу же стал обсуждаться в массе публикаций, в том числе и научно-популярных. В "Заводской лаборатории" No. 10 за 1987 г. была помещена подборка статей по бутстрепу. На русском языке выпущен сборник статей Б. Эфрона [16]. Основная идея бутстрепа по Б. Эфрону состоит в том, что методом Монте-Карло (статистических испытаний) многократно извлекаются выборки из эмпирического распределения. Эти выборки, естественно, являются вариантами исходной, напоминают ее. Сама по себе идея "размножения выборок" была известна гораздо раньше. Одна из статей Б. Эфрона в сборнике [16] называется так: "Бутстреп-методы: новый взгляд на метод складного ножа". Упомянутый "метод складного ножа" (jackknife) предложен М. Кенуем еще в 1949 г., за 30 лет до появления статьи Б.Эфрона. "Размножение выборок" при этом осуществляется путем исключения одного наблюдения. Таким образом для выборки объема n получаем n "похожих" на нее выборок объема (n - 1) каждая. Если же исключать по 2 наблюдения, то число "похожих" выборок возрастает до n (n - 1) / 2 объема (n - 2) каждая. Преимущества и недостатки бутстрепа как статистического метода обсуждались в главе 11 выше. Там же приводится информация о ряде аналогичных методов. Необходимо подчеркнуть, что бутстреп по Эфрону - лишь один из вариантов методов "размножения выборки" (resampling), и, на наш взгляд, не самый удачный. Метод "складного ножа" представляется более полезным. На его основе можно сформулировать следующую простую практическую рекомендацию. Предположим, что Вы по выборке делаете какие-либо статистические выводы. Вы хотите узнать также, насколько эти выводы устойчивы. Если у Вас есть другие (контрольные) выборки, описывающие то же явление, то Вы можете применить к ним ту же статистическую процедуру и сравнить результаты. А если таких выборок нет? Тогда Вы можете их построить искусственно. Берете исходную выборку и исключаете один элемент. Получаете похожую выборку (она взята из того же распределения, только объем на единицу меньше). Затем возвращаете этот элемент выборки и исключаете другой. Получаете вторую похожую выборку. Поступив таким образом со всеми элементами исходной выборки, получаете столько выборок, похожих на исходную, каков ее объем. Остается обработать их тем же способом, что и исходную, и изучить устойчивость получаемых выводов - разброс оценок параметров, частоты принятия или отклонения гипотез и т.д. Можно изменять не выборку, а сами данные. Поскольку всегда имеются погрешности измерения, то реальные данные - это не числа, а интервалы (результат измерения плюс-минус погрешность). Нужна статистическая теория анализа таких данных. Перспективное и быстро развивающееся направление последних лет - прикладная математическая статистика интервальных данных. Речь идет о развитии методов математической статистики в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Статистика интервальных данных идейно связана с интервальной математикой, в которой в роли чисел выступают интервалы. Это направление математики является дальнейшим развитием всем известных правил приближенных вычислений, посвященных выражению погрешностей суммы, разности, произведения, частного через погрешности тех чисел, над которыми осуществляются перечисленные операции. К настоящему времени удалось решить, в частности, ряд задач теории интервальных дифференциальных уравнений, в которых коэффициенты, начальные условия и решения описываются с помощью интервалов. Одна из ведущих научных школ в области статистики интервальных данных - это школа проф. А.П. Вощинина, активно работающая с конца 70-х годов. В частности, изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности. Рассмотрим другое направление в статистике интервальных данных, которое также представляется перспективным. В нем развиваются асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. В частности, с помощью такой асимптотики были сформулированы правила выбора метода оценивания параметров гамма-распределения в ГОСТ 11.011-83 [12]. В рамках рассматриваемого научного направления, разработана общая схема исследования, включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она применена к оцениванию математического ожидания, дисперсии, коэффициента вариации, параметров гамма-распределения и характеристик аддитивных статистик, при проверке гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова. Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов. В частности, изучено влияние погрешностей измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на введенный в главе 5 показатель качества классификации. Изучено асимптотическое поведение оценок метода моментов и оценок максимального правдоподобия (а также более общих - оценок минимального контраста), проведено асимптотическое сравнение этих методов в случае интервальных данных. Найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия. В области асимптотической математической статистики интервальных данных российская наука имеет мировой приоритет. Развертывание работ по рассматриваемой тематике позволит закрепить этот приоритет, получить теоретические результаты, основополагающие в новой области математической статистики и необходимые для обоснованного статистического анализа почти всех типов данных. Со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков. Согласно общепринятой в настоящее время классификации статистических методов прикладная статистика делится на следующие четыре области: - статистика (числовых) случайных величин, - многомерный статистический анализ, - статистика временных рядов и случайных процессов, - статистика объектов нечисловой природы. Первые три из этих областей являются классическими. Они были хорошо известны еще в первой половине ХХ в. Остановимся на четвертой, сравнительно недавно вошедшей в массовое сознание специалистов. Ее именуют также статистикой нечисловых данных или попросту нечисловой статистикой. Анализ динамики развития эконометрики и прикладной статистики приводит к выводу, что в XXI в. она станет центральной областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты. Исходный объект в прикладной математической статистике - это выборка. В вероятностной теории статистики выборка - это совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры. Примерами объектов нечисловой природы являются: - значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций); - упорядочения (ранжировки) экспертами образцов продукции (при оценке её технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов); - классификации, т.е. разбиения объектов на группы сходных между собой (кластеры); - толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки; - результаты парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1; - множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга; - слова, предложения, тексты; - вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности (т.н. форма No.1 - наука) или заполненная компьютеризированная история болезни, в которой часть признаков носит качественный характер, а часть - количественный; - ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д. Интервальные данные (см. выше) тоже можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств. С начала 70-х годов под влиянием запросов прикладных исследований в социально-экономических, технических, медицинских науках в России активно развивается статистика объектов нечисловой природы, известная также как статистика нечисловых данных или нечисловая статистика. В создании этой сравнительно новой области эконометрики и прикладной математической статистики приоритет принадлежит российским ученым. Большую роль сыграл основанный в 1973 г. научный семинар "Экспертные оценки и анализ данных". В 60-е годы советское научное сообщество стало интересоваться методами экспертных оценок. Как следствие, началось знакомство с конкретными математизированными теориями, связанными с этими методами. Речь идет о репрезентативной теории измерений, ставшей известной в нашей стране по статье П. Суппеса и Дж. Зинеса в сборнике [17] и книге И. Пфанцагля [18], о теории нечеткости, современный этап которой начался с работ Л.А.Заде [19], теории парных сравнений, описанной в монографии Г.Дэвида [20]. К этому кругу идей примыкают теория случайных множеств (см., например, книгу Ж. Матерона [21]) и методы многомерного шкалирования (описаны, в частности, в монографиях А.Ю.Терехиной [22] и В.Т.Перекреста [23]). Но наибольшее влияние оказали идеи Дж. Кемени, который аксиоматически ввел расстояние между ранжировками (теперь оно именуется в литературе расстоянием Кемени) и предложил использовать в качестве средней величины решение оптимизационной задачи (теперь - медиана Кемени). Его книга [24], написанная в соавторстве с Дж.Снеллом, породила большой поток исследований. В течение 70-х годов на основе запросов теории экспертных оценок (а также социологии, экономики, техники и медицины) развивались конкретные направления статистики объектов нечисловой природы. Были установлены связи между конкретными видами таких объектов, разработаны для них вероятностные модели. Научные итоги этого периода подведены в монографиях [14,25,26]). Следующий этап - выделение статистики объектов нечисловой природы в качестве самостоятельного направления в эконометрике и прикладной статистике, ядром которого являются методы статистического анализа данных произвольной природы. Программа развития этого нового научного направления впервые была сформулирована в статье [27]. Реализация этой программы была осуществлена в 80-е годы. Для работ этого периода характерна сосредоточенность на внутренних проблемах нечисловой статистики. Отметим сборник научных статей [28], полностью посвященный нечисловой статистике. К 90-м годам статистика объектов нечисловой природы с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Однако она оставалась недостаточно апробированной на практике. Это было связано как с ее сравнительной молодостью, так и с общеизвестными особенностями организации науки в 80-е годы, когда отсутствовали достаточные стимулы к тому, чтобы теоретики занялись широким внедрением своих результатов. И в 90-е годы наступило время от математико-статистических исследований перейти к применению полученных результатов на практике. Следует отметить, что в статистике объектов нечисловой природы, как и в других областях эконометрики, прикладной математической статистики и прикладной математики вообще, одна и та же математическая схема может с успехом применяться и в технических исследованиях, и в менеджменте, и в экономике, и в геологии, и в медицине, и в социологии, и для анализа экспертных оценок, и во многих иных областях, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы. 1.4. Основные идеи статистики объектов нечисловой природы В чем принципиальная новизна нечисловой статистики? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы. Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида. Решаются классические задачи описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами. Первой обсудим проблему определения средних величин. В рамках репрезентативной теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения. В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического среднего это - задача минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственным элементом пространства, а состоять из множества таких элементов, которое может оказаться и пустым. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость эмпирических средних к теоретическим. Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в интервальной статистике. В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном случае с той, которая имеет быть в классической теории для числовых случайных величин. Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности. Для проверки гипотез могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке [29], приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [30]. Представляют практический интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы. В частности, со статистикой нечетких множеств, развитой в книге [31], и со статистикой случайных множеств [14] (следует отметить, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств [14,31]), с непараметрической теорией парных сравнений, с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы [28], и с рядом других конкретных постановок. Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации. С другой стороны, наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, в рамках статистики объектов нечисловой природы. Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа). Статистические методы анализа нечисловых данных особенно хорошо приспособлены для применения в экономике, социологии и экспертных оценках, поскольку в этих областях от 50% до 90% данных являются нечисловыми. Выше рассмотрены пять "точек роста" эконометрики и прикладной статистики. Разумеется, они не исчерпывают все многообразие фронта научных исследований в рассматриваемых областях. Кроме того, в настоящем разделе почти не затронуты разнообразные применения эконометрических и статистических методов в конкретных прикладных исследованиях и разработках. Много интересных проблем есть в планировании экспериментов, особенно кинетических (см., например, статью [31]), при анализе проблем надежности, в новых статистических методах управления качеством продукции, в том числе в связи с идеями Г. Тагути, при анализе рисков, в вопросах экологии и безопасности и др. В течение последних более чем 60 лет в России наблюдается огромный разрыв между государственной статистикой и научным сообществом специалистов по статистическим методам (подробнее об этом см. статью [7]). В учебнике по истории статистики [32] даже не упоминаются имена членов-корреспондентов АН СССР Н.В.Смирнова и Л.Н. Большева! А ведь они - единственные представители именно математической статистики как таковой в Академии наук в ХХ в. (еще ряд членов Академии наук имели математическую статистику среди своих интересов, но Н.В. Смирнов и Л.Н. Большев занимались практически только ею). Поэтому нет ничего удивительного в том, что тенденции развития современной эконометрики и прикладной математической статистики столь же мало обсуждаются отечественными авторами, как и ее история. (Продолжение следует) * * * * * * *
Полезный сайт "Disser" - это комплект макросов для Word, упрощающие создание рефератов и курсовых. Готовое оформление, титульный лист, содержание создаются несколькими щелчками мыши. Ввод предельно упрощён благодаря автозамене, расшифровывающей популярные сокращения. Также: настройка недокументированных возможностей, дополнительные шаблоны, сборник полезных советов, методичка "Как написать реферат". Сайт: http://kankowski.narod.ru. Зеркало: http://e-town.nm.ru. * * * * * * *
Это интересно... Помните, когда-то давно, еще в советские годы, прилавки книжных магазинов были завалены изданиями для детей и взрослых, в которых легко и просто рассказывалось о достижениях современных технологий - вещах сложных, но очень интересных? Например, о том, как работает консервный завод или телефонная станция. И при этом безо всяких занудных разглагольствований - образно и ярко, с иллюстрациями и примерами? Вам было жалко, что сейчас нет таких же книг "по компьютерам"? Если да - то вам сюда: http://comptain.fromru.com. Книга "Тайны и секреты компьютера" - как раз для вас. * * * * * * *
На сайте http://antorlov.euro.ru или его зеркале http://www.newtech.ru/~orlov Вы можете найти:
Страница рассылки - http://antorlov.euro.ru/ivst.htm или http://www.newtech.ru/~orlov/ivst.htm. В Москве для работы с сайтом www.newtech.ru/~orlov Вы можете воспользоваться бесплатным демо-доступом компании NewTech. Телефоны: (095)234-94-49, (095)956-37-46. Login: imt. Password: test, Primary DNS: 212.16.0.1, Secondary DNS: 193.232.112.1. Вход под этим логином бесплатный, сеанс связи неограничен. Если Вам отказывают в авторизации, то просто повторите дозвон позже. На сайте http://karamurza.chat.ru представлена книга видного современного философа и политолога С.Г.Кара-Мурзы "Опять вопросы вождям", которая является глубоким научным исследованием проблем западного и российского общества. Книга предназначена всем интересующимся политологическими и социологическими проблемами. Из книги Максима Калашникова "Битва за Небеса", представленной на сайте http://sw.rus-idea.com, вы узнаете о том, какими должны были стать воздушно-космические силы СССР 2000 года и прочтете о русской авиации 20 века. Удачи вам и счастья! |
http://subscribe.ru/
E-mail: ask@subscribe.ru |
Отписаться
Убрать рекламу |
В избранное | ||