Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 91


Информационный Канал Subscribe.Ru

Здравствуйте, уважаемые подписчики!

*   *   *   *   *   *   *

   В 91-м выпуске рассылки "Эконометрика" от 20 мая 2002 года вы найдете статью проф.А.И.Орлова "Некоторые нерешенные вопросы в области математических методов исследования", опубликованную в 3-м номере журнала "Заводская лаборатория". В статье рассматриваются актуальные нерешенные научные вопросы математических методов исследования: влияние отклонений от традиционных предпосылок; использование асимптотических результатов при конечных объемах выборок; выбор одного из многих критериев для проверки конкретной гипотезы. Обсуждаются также вопросы организации теоретических работ в области математических методов исследования и проведения прикладных работ с использованием математических методов исследования.

   Автор материалов рассылки и статей на сайте http://antorlov.chat.ru - профессор А.И.Орлов. Поддержка рассылки осуществляется А.А.Орловым.

   Все вышедшие выпуски Вы можете посмотреть в Архиве рассылки по адресу http://www.subscribe.ru/archive/science.humanity.econometrika.

*   *   *   *   *   *   *

Некоторые нерешенные вопросы в области математических методов исследования

   В секции "Математические методы исследования" нашего журнала опубликовано более тысячи статей, рассматривающих новые методы и результаты их применения. Однако выявился целый ряд нерешенных вопросов, как чисто научных, так и научно-организационных, на которые целесообразно обратить внимание специалистов. Обсудим пять из них:

   - влияние отклонений от традиционных предпосылок;

   - использование асимптотических результатов при конечных объемах выборок;

   - выбор одного из многих критериев для проверки конкретной гипотезы;

   - организация теоретических работ в области математических методов исследования;

   - проведение прикладных работ с использованием математических методов исследования.

   Настоящая статья отнюдь не претендует на решение перечисленных вопросов. Ее цель гораздо скромнее - обратить внимание на существование ряда нерешенных вопросов в надежде, что коллективными усилиями удастся продвинуться в их решении.

1. Влияние отклонений от традиционных предпосылок

   В вероятностной теории статистических методов выборка обычно моделируется как конечная последовательность независимых одинаково распределенных случайных величин или векторов. Часто предполагается, что эти величины (вектора) имеют нормальное распределение.

   На основе сформулированных классических предпосылок построено огромное здание классической математической статистики с большим числом теорем. Оно за последние 100 лет обросло горой учебников и пакетов программ.

   Однако при внимательном взгляде совершенно ясна нереалистичность классических предпосылок. Независимость результатов измерений обычно принимается "из общих предположений", между тем во многих случаях очевидна их коррелированность [1]. Одинаковая распределенность также вызывает сомнения из-за изменения во времени свойств измеряемых образцов, средств измерения и психофизического состояния специалиста, проводящего измерения(испытания, анализы, опыты). Обоснованность применения вероятностных моделей также часто вызывает сомнения, например, при моделировании уникальных измерений (теорию вероятность обычно привлекают при изучении массовых явлений). И уж совсем редко распределения результатов измерений можно считать нормальными [2].

   Итак, методы классической математической статистики обычно используют вне сферы их обоснованной применимости. Какова влияние отклонений от традиционных предпосылок на статистические выводы? В настоящее время об этом имеются лишь отрывочные сведения. Приведем три примера.

   Пример 1. Построение доверительного интервала для математического ожидания обычно проводят с использованием распределения Стьюдента (при справедливости гипотезы нормальности). Как следует их Центральной Предельной Теоремы (ЦПТ) теории вероятностей, в асимптотике (при большом объеме выборки) такие расчетные методы дают правильные результаты (из ЦПТ вытекает использование квантилей нормального распределения, а из классической теории - квантилей распределения Стьюдента, но при росте объема выборки квантили распределения Стьюдента стремятся к соответствующим квантилям нормального распределения).

   Пример 2. Для проверки однородности двух независимых выборок (на самом деле - для проверки равенства математических ожиданий) обычно рекомендуют использовать двухвыборочный критерий Стьюдента. Что будет при отклонении от нормальности распределений, из которых взяты выборки? Если объемы выборок равны или если дисперсии совпадают, то в асимптотике (когда объемы выборок безгранично возрастают) классический метод является корректным. Если же объемы выборок существенно отличаются или дисперсии различны, то двухвыборочную статистику Стьюдента применять нельзя. Поскольку проверка равенства дисперсий - более сложная задача, чем проверка равенства математических ожиданий, то для выборок разного объема использовать двухвыборочную статистику Стьюдента не следует, лучше применять критерий Крамера- Уэлча [3].

   Пример 3. В задаче отбраковки (исключения) резко выделяющихся наблюдений (выбросов) расчетные методы, основанные на нормальности, являются крайне неустойчивыми по отношению к отклонениям от нормальности, что полностью лишает эти методы научной обоснованности [4].

   Примеры 1-3 показывают весь спектр возможных свойств классических расчетных методов в случае отклонения от нормальности. Методы примера 1 оказываются вполне пригодными при таких отклонениях, примера 2 - пригодными в некоторых случаях, примера 3 - полностью непригодными.

   Итак, имеется необходимость изучения свойств расчетных методов классической математической статистики, опирающихся на предположение нормальности, в ситуациях, когда это предположение не выполнено. Аппаратом для такого изучения наряду с методом Монте-Карло могут послужить предельные теоремы теории вероятностей, прежде всего ЦПТ, поскольку интересующие нас расчетные методы обычно используют разнообразные суммы.

   Пока подобное изучение не проведено, остается неясной научная ценность, например, применения факторного анализа к векторам из переменных, принимающих небольшое число градаций и к тому же измеренных в порядковой шкале [5]. Пример работы [5] показывает важность еще одного направления исследований - изучения свойств алгоритмов, предназначенных для анализа числовых данных, в случаях, когда данные измерены в шкалах, отличных от абсолютной, в частности, в порядковой шкале. Подробнее это направление рассмотрено в обзорах [6,7].

   Из большого числа возможных постановок, от носящихся к изучению влияния отклонений от традиционных предпосылок, укажем лишь на то, что реальные данные имеют небольшое число значащих цифр (обычно от 2 до 5), в то время как в классической математической статистике используются непрерывные случайные величины, для которых вероятность получения подобного результата наблюдения равна 0. Событиями, имеющими вероятность 0, принято пренебрегать. Следовательно, с точки зрения классической математической статистики любыми реальными данными нужно пренебречь! Выходов из этого парадокса несколько. Один из них - бурно развивающаяся в настоящее время статистика интервальных данных [8,9], другой - использование классических поправок Шеппарда для сгруппированных данных [10,11]. Здесь еще много работы. Так, даже для такого широко используемого статистического показателя, как коэффициент корреляции, поправки Шеппарда были получены лишь в 1980 г. [12].

   Почему на первый план выдвинуто изучение классических алгоритмов, а не построение новых, специально предназначенных для работы в условиях отклонения от классических предпосылок? Во-первых, потому, что классические алгоритмы в настоящее время наиболее распространены (благодаря сложившейся системе образования прикладников). Во-вторых, более новые подходы зачастую методолгически уязвимы. Так, известная робастная модель засорения Тьюки-Хубера [13] нацелена на борьбу с большими выбросами, которые зачастую физически невозможны из-за ограниченности интервала возможных значений измеряемой характеристики, в котором работает конкретное средство измерения. Следовательно, модель Тьюки-Хубера имеет скорее теоретическое значение, чем практическое. Сказанное, конечно, не обозначает, что следует прекратить разработку, изучение и внедрение непараметрических и устойчивых методов, выделенных в [9] как "точки роста" современной прикладной статистики.

2. Использование асимптотических результатов при конечных объемах выборок

   Как отмечено в предыдущем разделе, изучение классических алгоритмов во многих случаях может проведено с помощью асимптотических методов математической статистики, в частности, с помощью ЦПТ и методов наследования сходимости [14, п.2.4]. Однако применять результаты подобного изучения придется при конечных объемах выборок. Возникает целый букет проблем, связанных с таким переходом. Часть из них обсуждалась в [15] в связи с изучением свойств статистик, построенных по выборкам из конкретных распределений.

   Однако при обсуждении влияния отклонений от исходных предположений на свойства статистических процедур возникают дополнительные проблемы. Какие отклонения считать типичными? Ориентироваться ли на наиболее "вредные" отклонения, в наибольшей степени искажающие свойства алгоритмов, или же сосредоточить внимание на "типичных" отклонениях?

   При первом подходе получаем гарантированный результат, но "цена" этого результата может быть излишне высокой. В качестве примера укажем на универсальное неравенство Берри-Эссеена для погрешности в ЦПТ [16,17]. Совершенно справедливо подчеркивает А.А.Боровков [17, с,172], что "скорость сходимости в реальных задачах, как правило, оказывается лучше."

   При втором подходе возникает вопрос, какие отклонения считать "типичными". Попытаться ответить на этот вопрос можно, анализируя большие массивы реальных данных. Вполне естественно, что ответы различных исследовательских групп будут различаться, как это видно, например, по результатам, приведенным в статье [18].

   Одна из ложных идей - использование при анализе возможных отклонений какого-либо параметрического семейства - Вейбулла-Гнеденко, гамма-распределений и др. Еще в 1927 г. акад. АН СССР С.Н.Бернштейн обсуждал методологическую ошибку, состоящую в сведении всех эмпирических распределений к четырехпараметрическому семейству Пирсона [19]. Однако и до сих пор параметрические методы статистики весьма популярны, особенно среди прикладников, и вина за это заблуждение лежит на преподавателях статистических методов (см. ниже, а также статью [9]).

3. Выбор одного из многих критериев для проверки конкретной гипотезы

   Во многих случаях для решения конкретной практической задачи разработано много методов, и специалист по математическим методам исследования стоит перед проблемой: какой из них предложить прикладнику для анализа конкретных данных?

   В качестве примера рассмотрим задачу проверки однородности двух независимых выборок. Как известно [20], для ее решения можно предложить массу критериев: Стьюдента, Крамера-Уэлча, Лорда, хи-квадрат, Вилкоксона (Манна-Уитни), Ван-дер-Вардена, Сэвиджа, Н.В.Смирнова, типа омега-квадрат (Лемана-Розенблатта), Г.В.Мартынова и др. Какой выбрать?

   Естественным образом приходит в голову идея "голосования": провести проверку по многим критериям, а затем принять решение "по большинству голосов". С точки зрения статистической теории такая процедура приводит попросту к построению еще одного критерия, который априори ничем не лучше прежних, но более труден для изучения. С другой стороны, если совпадают решения по всем рассмотренным статистическим критериям, исходящим из различных принципов, то в соответствии с концепцией устойчивости [14] это повышает доверие к полученному общему решению.

   Распространено, особенно среди математиков, ложная мнение о необходимости поиска оптимальных методов, решений и т.д. Дело в том, что оптимальность обычно исчезает при отклонении от исходных предпосылок. Так, среднее арифметическое в качестве оценки математического ожидания является оптимальной только тогда, когда исходное распределение - нормальное [21], в то время как состоятельной оценкой - всегда, лишь бы математическое ожидание существовало. С другой стороны, для любого произвольно взятого метода оценивания или проверки гипотез обычно можно так сформулировать понятие оптимальности, чтобы рассматриваемый метод стал оптимальным. Возьмем, например, выборочную медиану как оценку математического ожидания. Для распределения Лапласа выборочная медиана является оценкой максимального правдоподобия, а потому оптимальной (в смысле, уточненном в монографии [22]).

   Критерии однородности были проанализированы в монографии [23]. Естественных подходов к сравнению критериев несколько - на основе асимптотической относительной эффективности по Бахадуру, Ходжесу-Леману, Питмену. И каждый критерий является оптимальным при соответствующей альтернативе или подходящем распределении на множестве альтернатив. При этом математические выкладки обычно используют альтернативу сдвига, сравнительно редко встречающуюся в практике анализа реальных статистических данных (в связи с критерием Вилкоксона эта альтернатива обсуждалась в [24]). Итог печален - блестящая математическая техника, продемонстрированная в [23], не позволяет дать рекомендации для выбора критерия проверки однородности при анализе реальных данных.

   Конечно, каждый практически работающий статистик так или иначе решает для себя проблему выбора статистического критерия. На основе ряда методологических соображений мы остановили свой выбор [2] на состоятельном против любой альтернативы критерии типа омега-квадрат (Лемана-Розенблатта). Однако остается чувство неудовлетворенности в связи с недостаточной обоснованностью этого выбора.

4. Организация теоретических работ в области математических методов исследования

   В предыдущих разделах продемонстрирована необходимость большой теоретической работы по развитию нацеленных на практическое использование математических методов исследования. В статье [25] 1992 г. обоснован вывод г необходимости создания сети научно-исследовательских организаций, которая выполняла бы такую работу. Как известно, количество научных работников к настоящему времени сократилось примерно в 3 раза по сравнению с началом 90-х годов, так что на осуществление в ближайшие годы сформулированной в [25] научно-организационной программы надеяться не приходится.

   Приходится с сожалением констатировать, что в рамках научной специальности "теория вероятностей и математическая статистика" наблюдается четко выраженное игнорирование проблем статистического анализа реальных данных и уход в глубь узкоматематических исследований, которые ничего не могут дать практике. Причины этого явления, типичного для математических дисциплин, обсуждались в статье [9]. Поэтому нет оснований ожидать, что при "естественном ходе событий" будут получены существенные продвижения в рассмотренных в первых трех разделах статьи нерешенных проблемах в области математических методов исследования.

   Помочь может выделение государственными структурами, например, Российским фондом фундаментальных исследований, системы грантов, направленных на поддержку работ в области нерешенных проблем математических методов исследования. Принципиальным шагом явилось бы выделение математических методов исследования как самостоятельного научного направления, отличного как от чисто математических дисциплин типа "теории вероятностей и математической статистики", так и от, например, ветви экономической теории под названием "статистика".

5. Проведение прикладных работ с использованием математических методов исследования

   Проблемы организации теоретических работ в области математических методов исследования лишь в перспективе важны для практической работы. Как правило, те, кто обрабатывает реальные данные, недостаточно знакомы с теоретическими основами алгоритмов и тем более не следят за событиями "на переднем крае" обсуждаемой методической дисциплины. Это вполне естественно, поскольку основная специальность у таких специалистов - иная.

   Несколько огрубляя, можно сказать, что реально используется только то, что имеется в учебниках и справочниках, в широко распространенных пакетах программ, а научные публикации с точки зрения прикладника представляют собой "информационный шум". Ситуация усугубляется ненормальным положением в отечественной статистике [26], наличием ошибок во многих изданиях (о некоторых из них шла речь в статьях [24,27,28]).

   К сожалению, учебная и научная литература на русском языке (как, впрочем, и на иных языках) по математическим методам исследования в целом далека от совершенства, переполнена устаревшими методологическими подходами и прямыми ошибками. До сих пор наилучшим изданием остаются "Таблицы математической статистики" Л.Н.Большева и Н.В.Смирнова [20], созданные в 60-х годах.

   Хотя студенты почти всех специальностей изучают в конце курса высшей математики раздел "теория вероятностей и математическая статистика", реально они знакомятся лишь с некоторыми основными понятиями и результатами, которых явно не достаточно для практической работы. С некоторыми математическими методами исследования студенты встречаются в специальных курсах (например, таких, как "прогнозирование и технико-экономическое планирование", "технико-экономический анализ", "контроль качества продукции"), однако изложение в большинстве случаев носит весьма сокращенный и рецептурный характер. В результате подавляющую часть специалистов по математическим методам исследования следует считать самоучками.

   Поэтому большое значение имело бы введение в технических вузах курса "Математические методы исследования". Это можно делать в рамках подпрограммы "Технологии подготовки кадров для национальной технологической базы" федеральной целевой программы "Национальная технологическая база". Естественно, что курс "Математические методы исследования" должен быть обеспечен соответствующими учебниками и учебными пособиями, методическими материалами и компьютерными системами.

   Только через систему образования можно поднять уровень массового применения математических методов исследования и сократить отставание от "переднего края" теории. А это отставание в настоящее время составляет не менее 20 (но и не более 100) лет.

Литература

   1. Эльясберг П.Е. Измерительная информация. Сколько ее нужно, как ее обрабатывать? - М.: Наука, 1983. - 208 с.

   2. Орлов А.И. / Заводская лаборатория. - 1991. - Т.57. - No.7. - С.64-66.

   3. Орлов А.И. / Вестник Академии медицинских наук СССР. - 1987. - No.2. - С.88-94.

   4. Орлов А.И. / Заводская лаборатория. - 1992. - Т.58. - No.7. - С.40-42.

   5. Митина О.В., Петренко В.Ф. - В сб.: Математическое и компьютерное моделирование в науках о человеке и обществе. Тезисы докладов Всероссийской конференции. - М.: Изд-во Гос.ун-та управления, 1999. - С.44-53.

   6. Толстова Ю.Н. / Заводская лаборатория. - 1999. - Т.65. - No.3. - С.49-57.

   7. Орлов А.И. / Заводская лаборатория. - 1999. - Т.65. - No.3. - С.57-62.

   8. Дискуссия о методах анализа интервальных данных / Заводская лаборатория. - 1990. - Т.56. - No.7. - С.75-95.

   9. Орлов А.И. / Заводская лаборатория. - 1998. - Т.64. - No.3. - С.52-60.

   10. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.

   11. Орлов А.И., Орловский И.В. - В сб.: Прикладной многомерный статистический анализ. - М.: Наука, 1978. - С.339-342.

   12. Орлов А.И. / Экономика и математические методы. - 1980. - Т.XVI. - No.4. - С.800-801.

   13. Хьюбер П. Робастность в статистике. - М.: Мир, 1984. - 304 с.

   14. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

   15. Орлов А.И. / Заводская лаборатория. - 1998. - Т.64. - No.5. - С.64-67.

   16. Феллер В. Введение в теорию вероятностей и ее приложения. Т.2. - М.: Мир, 1984. - 751 с.

   17. Боровков А.А. Теория вероятностей. - М.: Наука, 1976. - 352 с.

   18. Золотухина Л.А., Винник Е.В. / Заводская лаборатория. - 1985. - Т.51. - No.1. - С.51-55.

   19. Бернштейн С.Н. - В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 7 мая 1927 г. - М.-Л.: ГИЗ, 1928. - С.50-63.

   20. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики / 3-е изд.- М.: Наука, 1983. - 416 с.

   21. Каган А.М., Линник Ю.В., Рао С.Р. Характеризационные задачи математической статистики. - М.: Наука, 1972. - 656 с.

   22. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. - М.: Наука, 1979. - 528 с.

   23. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. - М.: Наука, 1995. - 240 с.

   24. Орлов А.И. / Заводская лаборатория. - 1999. - Т.65. - No.1. - С.51-55.

   25. Орлов А.И. / Заводская лаборатория. - 1992. - Т.58. - No.1. - С.67-74.

   26. Орлов А.И. / Вестник статистики. - 1990. - No.1. - С.65-71.

   27. Орлов А.И. / Заводская лаборатория. - 1997. - Т.63. - No.3. - С.55-62.

   28. Орлов А.И. / Заводская лаборатория. - 1997. - Т.63. - No.5. - С.49-50.

проф.А.И.Орлов,
Заводская лаборатория, 2002, No. 3

*   *   *   *   *   *   *

   На сайте http://antorlov.chat.ru или его зеркале http://www.newtech.ru/~orlov Вы можете найти:
   1. Макрос для Microsoft Word 97/2000 - "ВерсткаТекстаКнижкой", предназначенный для создания в Word книжек размером в половину листа, макросы для создания каталогов файлов, извлечения из недр Word'а красивых значков.
   2. Макрос для Microsoft Word 97/2000 - Конвертор "Число-текст" с поддержкой русского, украинского и английского языков и двух падежей, обладающий также возможностью автоматического обновления вставленных текстовых расшифровок при изменении значений исходных чисел.
   3. Учебник профессора А.И.Орлова по менеджменту.
   4. Статьи А.И.Орлова по актуальным вопросам статистики и экономики.
   5. Лекцию об устройстве ядерных реакторов.
   6. Информацию об Институте высоких статистических технологий, который занимается развитием, изучением и внедрением наиболее современных методов анализа технических, экономических, социологических, медицинских данных.

   Страница рассылки - http://antorlov.chat.ru/ivst.htm или http://www.newtech.ru/~orlov/ivst.htm.

   Если Вы живете в Москве, то для доступа к сайту www.newtech.ru/~orlov Вы можете воспользоваться бесплатным демо-доступом компании NewTech. Телефоны: (095)234-94-49, (095)956-37-46. Login: demo (или imt). Password: test. Вход под этим логином абсолютно бесплатный и открыт круглосуточно. Сеанс связи неограничен. Одновременно возможен вход не более 5 пользователей по демо-доступу. Если Вы видите сообщение об отказе в авторизации, значит, Вы - 6-й пользователь, входящий под этим логином, - повторите попытку позже. Доступ с использованием программы Netscape Navigator требует указания DNS: Primary DNS: 212.16.0.1, Secondary DNS: 193.232.112.1. Отказ сервера в принятии пароля не должен служить основанием для прекращения дозвона.

   На сайте http://karamurza.chat.ru представлена книга видного современного философа и политолога С.Г.Кара-Мурзы "Опять вопросы вождям", которая является глубоким научным исследованием проблем западного и российского общества. Данная книга может серьезно повысить образовательный уровень интересующихся политологическими и социологическими проблемами.

   Из книги Максима Калашникова "Битва за Небеса", представленной на сайте http://skywars.chat.ru, Вы узнаете о том, какими должны были стать воздушно-космические силы СССР 2000 года и прочтете о русской авиации 20 века. Вы познакомитесь с планом построения страны-сверхкорпорации, которой так боялись США, узнаете, как и кем планомерно уничтожалась советская цивилизация.

   Книга "Тайны и секреты компьютера", вышедшая в издательстве "Радио и связь", предназначена для тех, кто самостоятельно осваивает мир информационных технологий. Программирование в среде Microsoft Office, создание сайтов, устройство сети Интернет, структура системного реестра Windows и файловой системы, сеть Fidonet, строение жидкокристаллических дисплеев и проблема наличия различных кодировок русского языка, - про все это рассказывается в ней. Многообразие тем и легкий стиль изложения сделают ее вашим спутником на долгое время, и вы всегда сможете найти в ней нужную именно в данный момент информацию. Если Вы интересуетесь компьютерными технологиями, желали бы расширить свои знания и умения в этой области, то она Вам наверняка понравится. На сайте http://comptain.chat.ru, посвященном этой книге, вы можете ознакомиться с ее оглавлением и аннотацией, прочитать некоторые главы, купить в Интернет-магазине.

Удачи Вам и счастья!



http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться
Убрать рекламу

В избранное