Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 3


Служба Рассылок Городского Кота

Здравствуйте, уважаемые подписчики!

   В первых двух выпусках подписки было дано общее представление о современной эконометрике. Третий и четвертый выпуски посвящены эконометрическим методам, наиболее актуальным в настоящее время. В этом выпуске речь идет о новом разделе эконометрики статистике интервальных данных. Он содержит полный список публикаций, содержащих основные результаты рассматриваемого раздела. Во следующем выпуске будет обсуждаеться одна из основных нерешенных проблем статистических методов в целом и эконометрики в частности проблема использования асимптотических результатов при конечных объемах выборки.
   Автор материалов рассылки и статей на сайте http://antorlov.chat.ru - профессор А.И.Орлов. Поддержка рассылки осуществляется А.А.Орловым.

*       *       *

О развитии статистики интервальных данных

   Перспективное и быстро развивающееся направление последних лет - математическая статистика интервальных данных. Речь идет о развитии методов математической статистики в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Полученные результаты отражены, в частности, в выступлениях на проведенной в "Заводской лаборатории" дискуссии [1] и в докладах международной конференции ИНТЕРВАЛ-92 [2]. Приведем основные идеи развиваемого нами направления в статистике интервальных данных.
   В настоящее время признается необходимым изучение устойчивости (робастности) оценок параметров к малым отклонениям исходных данных и предпосылок модели. Однако популярная среди теоретиков модель засорения (Тьюки-Хьюбера) представляется не вполне адекватной. Эта модель нацелена на изучение влияния больших "выбросов". Поскольку любые реальные измерения лежат в некотором фиксированном диапазоне, например, зафиксированном в техническом паспорте средства измерения, то зачастую выбросы не могут быть слишком большими. Поэтому представляются полезными иные, более общие схемы устойчивости [3], в которых, например, учитываются отклонения распределений результатов наблюдений от предположений модели.
   В одной из таких схем изучается влияние интервальности исходных данных на статистические выводы. Необходимость такого изучения выявилась следующим образом. В государственных стандартах СССР по прикладной статистике в обязательном порядке давалось справочное приложение "Примеры применения правил стандарта". При разработке ГОСТ 11.011-83 [4] нам были предоставлены для анализа реальные данные о наработке резцов до предельного состояния (в часах). Оказалось, что все эти данные представляли собой либо целые числа, либо полуцелые (после умножения на 2 становящиеся целыми). Ясно, что исходная длительность наработок искажена. Необходимо учесть в статистических процедурах наличие такого искажения исходных данных. Как это сделать?
   Первое, что приходит в голову - модель группировки данных, согласно которой для истинного значения Х проводится замена на ближайшее число из множества {0,5n, n=1,2,3,...}. Однако эту модель целесообразно подвергнуть сомнению, а также рассмотреть иные модели. Так, возможно, что Х надо приводить к ближайшему сверху элементу указанного множества - если проверка качества поставленных на испытание резцов проводилась раз в полчаса. Другой вариант: если расстояния от Х до двух ближайших элементов множества {0,5n, n=1,2,3,...} примерно равны, то естественно ввести рандомизацию при выборе заменяющего числа, и т.д.
   Мы выбрали модель, согласно которой результаты наблюдений - не числа, а интервалы. Например, если в таблице приведено значение 53,5, то это значит, что реальное значение - какое-то число от 53,0 до 54,0, т.е. какое-то число в интервале [53,5 - 0,5; 53,5 + 0,5], где 0,5 - максимально возможная погрешность. Принимая эту модель, мы попадаем в новую научную область -статистику интервальных данных [5,6], являющуюся, на наш взгляд, частью интервальной математики [7].
   Мы развиваем асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. В частности, с помощью такой асимптотики были сформулированы правила выбора метода оценивания в ГОСТ 11.011-83 [4].
   Разработана [8] общая схема исследования, включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она применена к оцениванию математического ожидания и дисперсии [1], медианы и коэффициента вариации [9], параметров гамма-распределения [4, 10] и характеристик аддитивных статистик [8], при проверке гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова [9]. Изучено асимптотическое поведение оценок метода моментов и оценок максимального правдоподобия (а также более общих - оценок минимального контраста), проведено асимптотическое сравнение этих методов в случае интервальных данных, найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия [11].
   Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов [12]. В частности, изучено влияние погрешностей измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы [12,13]. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на показатель качества классификации [12,14]. Основные идеи и результаты рассматриваемого направления в статистике интервальных данных приведены в публикациях обзорного характера [5,6].
   Как показала, в частности, международная конференция ИНТЕРВАЛ-92, в области асимптотической математической статистики интервальных данных мы имеем мировой приоритет. По нашему мнению, со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков.
   Многие из утверждений статистики интервальных данных весьма отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок; средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии оценки, рассчитанной согласно классической теории, и некоторого положительного числа (равного квадрату т.н. нотны - максимально возможного отклонения значения статистики из-за погрешностей исходных данных) - в результате метод моментов оказывается иногда точнее метода максимального правдоподобия [11]; нецелесообразно увеличивать объем выборки сверх некоторого предела (называемого рациональным объемом выборки) - вопреки классической теории, согласно которой чем больше объем выборки, тем точнее выводы.
   В стандарт [4] был включен раздел 5, посвященный выбору метода оценивания при неизвестных параметрах формы и масштаба и известном параметре сдвига и основанный на концепциях статистики интервальных данных. Теоретическое обоснование этого раздела стандарта опубликовано через 5 лет в [10].
   В 1982 г. при разработке стандарта [1] были сформулированы основные идеи статистики интервальных данных, однако из-за недостатка времени они не были полностью реализованы в ГОСТ 11.011-83, и этот стандарт написан в основном в классической манере. Развитие идей статистики интервальных данных продолжается уже в течение 15 лет, и еще много чего надо сделать!
   Ведущее значение статистики интервальных данных в современной прикладной статистике обосновано в [15, 16].

Литература

   1. Дискуссия по анализу интервальных данных. - Заводская лаборатория. 1990. Т.56. No.7, с.75-95.
   2. Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике(ИНТЕРВАЛ-92). Тт. 1,2. М.: МЭИ, 1992, 216 с., 152 с.
   3. Орлов А.И. Устойчивость в социально- экономических моделях. - М.: Наука,1979. 296 с.
   4. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. М.: Изд-во стандартов, 1984, 53 с.
   5. Orlov A.I. Interval statistics. - Interval Computations, 1992, No.1(3), р.44-52.
   6. Орлов А.И. Основные идеи интервальной математической статистики. - Наука и технология в России. 1994. No.4(6). С.8-9.
   7. Шокин Ю.И. Интервальный анализ. Новосибирск: Наука, 1981, 112 с.
   8. Орлов А.И. О развитии реалистической статистики. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Изд-во Пермского государственного университета, 1990, с..89-99.
   9. Орлов А.И. Некоторые алгоритмы реалистической статистики. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Изд-во Пермского государственного университета, 1991, с.77-86.
   10. Орлов А.И. О влиянии погрешностей наблюдений на свойства статистических процедур (на примере гамма- распределения). - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Изд-во Пермского государственного университета, 1988, с.45-55.
   11. Орлов А.И. Интервальная статистика: метод максимального правдоподобия и метод моментов. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1995, с.114-124.
   12. Орлов А.И. Интервальный статистический анализ. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Пермский государственный университет, 1993, с.149-158.
   13. Биттар А.Б. Метод наименьших квадратов для интервальных данных. Дипломная работа. - М.: МЭИ, 1994.
   14. Пузикова Д.А. Об интервальных методах статистической классификации. - Наука и технология в России. 1995. No.2(8). С.12-13.
   15. Орлов А.И. Пути развития статистических методов: непараметрика, робастность, бутстреп и реалистическая статистика. - Надежность и контроль качества, 1991, номер 8, с.3-8.
   16. Орлов А.И. Современная прикладная статистика. - Заводская лаборатория, 1998, т.64, номер3, с.75-95.
   (Международная конференция "Асимптотические методы в теории вероятностей и математической статистике", посвященная 50-летию кафедры теории вероятностей и математической статистики Санкт-Петербургского государственного университета (С.-Петербург, 24- 28 июня 1998 г.). Тезисы докладов. - Санкт-Петербург: Изд-во СПбГУ, 1998. С.212-215.)

Профессор А.И.Орлов

*       *       *

   На сайте http://antorlov.chat.ru или его зеркале http://www.newtech.ru/~orlov Вы также можете найти полезные макросы для Microsoft Word 97/2000, могущие помочь Вам в работе, например, макрос для создания книжек размером в половину листа или обьединения множества файлов в один. Также там представлен учебник профессора А.И.Орлова по менеджменту, статьи А.И.Орлова по актуальным вопросам статистики и экономики. Имеется лекция об устройстве ядерных реакторов.
   Страница рассылки - http://antorlov.chat.ru/ivst.htm или http://www.newtech.ru/~orlov/ivst.htm.
   Если Вы живете в Москве, то для доступа к сайту www.newtech.ru/~orlov Вы можете воспользоваться бесплатным демо-доступом компании NewTech. Телефоны: (095)234-94-49, (095)956-37-46. Login: imt или demo. Password: test. Вход под этими логинами абсолютно бесплатный и открыт круглосуточно. Сеанс связи неограничен. Одновременно возможен вход не более 5 пользователей по демо-доступу. Если Вы видите сообщение об отказе в авторизации, значит, Вы - 6-й пользователь, входящий под этим логином, - повторите попытку позже. Доступ с использованием программы Netscape Navigator требует указания DNS: Primary DNS: 212.16.0.1, Secondary DNS: 193.232.112.1. В последнее время увеличилась загрузка бесплатных линий, так что для дозвона рекомендуется использовать какую-нибудь автоматическую программу вроде EDialer.
   На сайте http://karamurza.chat.ru представлена книга видного современного философа и политолога С.Г.Кара-Мурзы "Опять вопросы вождям", которая является глубоким научным исследованием современных проблем западного и российского общества. Данная книга может серьезно повысить образовательный уровень интересующихся политологическими и социологическими проблемами.

Удачи Вам и счастья!


http://subscribe.ru/
E-mail: ask@subscribe.ru

В избранное