Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 1167


"Эконометрика", 1167 выпуск, 5 июня 2023 года.

Электронная газета кафедры "Экономика и организация производства" научно-учебного комплекса "Инженерный бизнес и менеджмент" МГТУ им.Н.Э. Баумана. Выходит с 2000 г.

Здравствуйте, уважаемые подписчики!

*   *   *   *   *   *   *

Познакомьтесь с принципиально важной статьей А.И. Орлова "Основные требования к статистическим методам анализа данных".

Все вышедшие выпуски доступны в Архиве рассылки по адресу subscribe.ru/catalog/science.humanity.econometrika.

*   *   *   *   *   *   *

УДК 519.2 08.00.13 Математические и инструментальные методы экономики (экономические науки)

Основные требования к статистическим методам анализа данных

Орлов Александр Иванович, д.э.н., д.т.н., к.ф.-м.н., профессор, РИНЦ SPIN-код: 4342-4994, Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5

Статья посвящена обоснованию полезности выработки, обсуждения и распространения системы основных требований к разработке и применению статистических методов анализа данных, к их описанию в публикациях, диссертациях и т.п. Автор в течение полувека консультировал научных работников различных специальностей, рецензировал их статьи и книги, оппонировал диссертации. Эта деятельность дала возможность познакомиться с сотнями конкретных исследований, посвященных разработке и применению статистических методов. Были выявлены разнообразные недостатки при проведении исследований и публикации их результатов, которые мешают их восприятию, а в ряде случаев ставят под сомнение адекватность выводов. Поэтому автор пришел к выводу о целесообразности выработки естественных требований к методам обработки данных и представлению результатов статистического анализа. Настоящая статья посвящена первоначальному рассмотрению ряда формулировок таких требований. Исходим из современной парадигмы прикладной статистики (основанной на непараметрической и нечисловой статистике), сменившей примитивную парадигму XIX в. и устаревшую парадигму середины XX в., основанной на использовании параметрических систем распределений. При описании и обсуждении процедур статистического анализа начинать надо с вероятностно-статистических моделей порождения изучаемых данных. Анализ многообразия моделей регрессионного анализа приводит к выводу, что не существует единой "стандартной модели". Согласно теории измерений первый шаг при анализе данных - выявление шкал, в которых они измерены. Статистические выводы должны быть инвариантны относительно допустимых преобразований шкал измерения. Поскольку распределения реальных данных ненормальны, предпочтения следует отдавать непараметрическим методам. Возможность применения параметрических семейств распределений должны быть тщательно обоснована. При проверке статистических гипотез должны быть указаны как нулевая, так и альтернативная гипотезы. Необходимо изучение устойчивости выводов, получаемых на основе модели, относительно допустимых изменений исходных данных и предпосылок модели. Нейросетевые методы анализа данных являются частью прикладной статистики.

Ключевые слова: математические и статистические методы экономики, анализ данных, вероятностно-статистическая модель, прикладная статистика, непараметрика, нечисловая статистика, теория измерений, регрессионный анализ, нейросетевые методы анализа данных.

UDC 519.2 08.00.13 Mathematical and instrumental methods of Economics

Basic requirements for statistical methods of data analysis

Orlov Alexander Ivanovich, Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., professor, RSCI SPIN-code: 4342-4994, Bauman Moscow State Technical University, Moscow, Russia

The article is devoted to the substantiation of the usefulness of developing, discussing and disseminating a system of basic requirements for the development and application of statistical methods for data analysis, for their description in publications, dissertations, etc. For half a century, the author advised scientists of various specialties, reviewed their articles and books, and opposed dissertations. This activity provided an opportunity to get acquainted with hundreds of case studies on the development and application of statistical methods. Various shortcomings have been identified in the conduct of studies and the publication of their results, which hinder their perception, and in some cases cast doubt on the adequacy of the conclusions. Therefore, the author came to the conclusion about the expediency of developing natural requirements for data processing methods and presenting the results of statistical analysis. This article is devoted to the initial consideration of a number of formulations of such requirements. We proceed from the modern paradigm of applied statistics (based on non-parametric and non-numerical statistics), which replaced the primitive paradigm of the 19th century. and the outdated paradigm of the middle of the 20th century, based on the use of parametric distribution systems. When describing and discussing the procedures of statistical analysis, it is necessary to start with probabilistic-statistical models for generating the data under study. An analysis of the diversity of regression analysis models leads to the conclusion that there is no single "standard model". According to measurement theory, the first step in analyzing data is to identify the scales on which they are measured. Statistical inferences must be invariant under allowable transformations of measurement scales. Since the distributions of real data are non-normal, preference should be given to non-parametric methods. The possibility of using parametric families of distributions must be carefully justified. When testing statistical hypotheses, both the null and alternative hypotheses must be specified. It is necessary to study the stability of the conclusions drawn from the model with respect to acceptable changes in the initial data and assumptions of the model. Neural network methods of data analysis are part of applied statistics.

Keywords: Mathematical and statistical methods of Economics, data analysis, probabilistic-statistical models, applied statistics, nonparametrics, nonnumerical statistics, measurement theory, regression analysis, neural network methods of data analysis.

Введение

Представляется полезным выработать, обсудить и распространить основные требования к разработке и применению статистических методов анализа данных, к их описанию в публикациях, диссертациях и т.п. Почему такая работа понадобилось? Казалось бы, имеется много учебников, им и надо следовать. Однако зачастую не удается извлечь из учебников и другой методической литературы конкретные рекомендации по проведению и подготовке к публикации собственных работ. К тому же приходится констатировать, что в публикациях зачастую имеются ошибки, десятилетиями кочующие из одной публикации в другую. Одна из таких ошибок проанализирована в статьях [1, 2].

Постоянное консультирование в течение полувека научных работников различных специальностей, рецензирование их статей и книг, оппонирование диссертаций дало возможность познакомиться с сотнями конкретных исследований по разработке и применению статистических методов. Критический анализ накопленного материала позволил разработать общий подход к проведению таких исследований и ряд частных методов [3, 4]. Кроме того, в результате такого анализа выявлены разнообразные недостатки при проведении исследований и публикации их результатов, которые мешают адекватному восприятию, а в ряде случаев ставят под сомнение обоснованность выводов. Этим обоснована наше мнение о том, что целесообразно сформулировать и обсудить естественные требования к методам обработки данных и представлению результатов статистического анализа конкретных данных.

Первая попытка реализовать эту идею сделана в рекомендациях [5] и докладе [6]. В том же духе подготовлено Приложение 3 "Методика сравнительного анализа родственных эконометрических моделей" в [7, 8]. Была сделана попытка выделить основные характеристики методов прикладной статистики и сформулировать требования к этим методам (т.е. к значениям упомянутых характеристик методов). Например, одно из требований: статистические выводы должны быть инвариантны относительно допустимых преобразований шкал измерения.

С целью "стандартизации математических орудий" (пользуемся терминологией Н. Бурбаки [9, с.253]) представляется целесообразным развернуть работу по сертификации статистических методов и соответствующих пакетов программ, а также учебных курсов и материалов [10], правил подготовки к публикации теоретических и практических исследований.

Однако стандартизация полезна только тогда, когда она проводится квалифицированными специалистами, в противном случае вместо пользы имеем вред. Примером является печальная судьба многообразия стандартов по статистическим методам управления качеством, большую часть которых пришлось отменить из-за ошибок разработчиков. Эта ситуация со стандартизацией подробно проанализирована в статье [11], а затем в учебниках [7, 8]. Очевидно, что проект нормативного документа должен подвергаться тщательному обсуждению на основе анализа высококвалифицированными специалистами. Однако такие специалисты предпочитают заниматься собственными исследованиями.

Настоящая статья посвящена первоначальному рассмотрению ряда формулировок требований к методам обработки данных и представлению результатов статистического анализа конкретных данных. Применительно к задачам классификации подобные требования обсуждались в статьях [12, 13], а связи с контроллингом - в докладе [14]. Исходим из современной парадигмы прикладной статистики, о которой необходимо сказать несколько слов.

О новой парадигме прикладной статистики

Статистические методы анализа данных широко применяются исследователями в различных областях науки. Центром этого инструментария является прикладная статистика, т.е. наука о том, как обрабатывать данные [3, 4]. Применения методов прикладной статистики в той или иной конкретной области деятельности порождают соответствующие науки. Например, применения в экономике и управлении (эконометрика), в биологии (биометрия), в технических исследованиях (технометрика), в химии (хемометрика), в медицине (доказательная медицина), в науковедении и управлении наукой (наукометрия) и т.д.

Обсудим смену парадигм прикладной статистики. Под парадигмой понимаем принятую наиболее квалифицированным ядром исследователей модель адекватной деятельности в той или иной области науки. Обсудим изменение с течением времени основ общепринятой специалистами модели действий в области прикладной статистики и методов анализа данных, более широко - в области математических методов исследования.

Рассмотрим три реально используемых в настоящее время парадигмы - примитивную, устаревшую, современную. Примитивная соответствует взглядам XIX и начала XX в., устаревшая - середине XX в., современная - XXI в.

Поясним на примере действий современных исследователей, придерживающихся той или иной парадигмы.

Исходя из примитивной парадигмы, наивные (плохо знакомые с современной прикладной статистикой) авторы применяют широко известные расчетные формулы классического критерия Стьюдента для проверки статистической гипотезы о равенстве 0 математического ожидания без какого-либо обоснования и верят в то, что действуют правильно.

Согласно устаревшей парадигме в начале исследования принимают (обычно без какого-либо обоснования, тем более строгого), что результаты измерений имеют нормальное распределение, затем применяют классический критерий Стьюдента (в предположениях нормальности распределения результатов измерений (наблюдений, испытаний, анализов, опытов) это обосновано).

Согласно современной парадигме для проверки рассматриваемой гипотезы следует использовать непараметрические методы (основанные на центральной предельной теореме [4, 13]), поскольку хорошо известно, что распределения реальных данных, как правило, не являются нормальными.

Бесспорно, что обоснованность статистических выводов возрастает при переходе от примитивной парадигмы к устаревшей и далее к современной. Несмотря на прогресс в развитии прикладной статистики в настоящее время в практике научной работы в различных областях используются все три парадигмы. Обсудим, как это влияет на качество результатов исследовательской деятельности, на качество научных публикаций.

Констатируем, что примитивная парадигма - это парадигма поваренной книги. Придерживающиеся этой парадигмы лица без осмысления следуют составленным кем-то рецептам. Применение распространенных программных продуктов без осмысления применяемых методов может провоцировать такие расчеты. Однако довольно часто итоговые выводы оказываются полезными с позиций прикладной области. Но иногда они могут быть и грубо ошибочными. Об опасности бездумного применения программных продуктов предупреждал еще проф. В.В. Налимов [16], выдающийся исследователь в области статистических методов.

От параметрической статистики к непараметрическим статистическим методам

Устаревшая парадигма - это парадигма середины ХХ в. В ней застыли взгляды начала ХХ в., когда были получены первые результаты новой отрасли науки - математической статистики. Согласно устаревшей парадигме элементы выборки рассматриваются как независимые случайные величины, распределения которых входят в то или иное параметрическое семейство распределений - нормальных, логистических, экспоненциальных, Вейбулла - Гнеденко, Коши, Лапласа, гамма-распределений, бета-распределений и др. Все эти семейства входят в четырехпараметрическое семейство распределений, введенное основателем математической статистики К. Пирсоном в начале ХХ в. С целью упорядочения результатов измерений (наблюдений, анализов, испытаний, опытов, обследований) он и его последователи приняли рабочую гипотезу, что распределения реальных данных всегда совпадают с каким-то элементом его четырехпараметрического семейства. Затем началось развитие теории параметрической математической статистики, в которой задачи оценивания и проверки гипотез решались для выборок из тех или иных параметрических семейств. Был получен ряд замечательных математических моделей и результатов, например, связанных с методом максимального правдоподобия, критериями Стьюдента, Пирсона (хи-квадрат), Фишера, неравенством Рао - Крамера и др. Многомерное нормальное распределение оказалось весьма полезным для развития регрессионного и дискриминантного анализов. Видимо, потому, что плотность такого распределения в точке Y является квадратичной формой от координат Y, а алгоритмы регрессионного и дискриминантного анализов соответствуют преобразованиям этой квадратичной формы при линейной замене координат.

Параметрической математической статистике посвящено основное содержание распространенных и в настоящее время вузовских учебников по математической статистике. В отличие от примитивной парадигмы, имеется строгая математическая теория, позволяющая на основе гипотезы, что распределения элементов выборки входят в то или иное параметрическое семейство, получать расчетные алгоритмы и на их основе - полезные практические рекомендации. Однако у этой математико-статистической теории есть принципиальный недостаток - распределения реальных данных, как правило, не являются нормальными и вообще не входят в четырехпараметрическое семейство Пирсона [13]. Это утверждение строго обосновано (см., например, работы [17, 18]) и включено в учебники [3, 4].

В прикладных работах иногда пытаются проверить нормальность или, например, экспоненциальность реальных данных. Зачастую отклонить гипотезу нормальности не удается. Но это нельзя рассматривать как окончательное подтверждение гипотезы о нормальности распределения рассматриваемых данных, поскольку для тех же данных обычно не удается отклонить и ту или иную гипотезу о том, что распределение данных соответствует другому популярному распределению. Причина этого внешне парадоксального явления очевидна - недостаточный (малый) объем выборки. Например, известно, что для того, чтобы выяснить, какому распределению соответствуют анализируемые данные - нормальному или логистическому, необходимо не менее 2500 наблюдений [3, 4]. Реальные объемы выборок обычно значительно меньше.

Исследователи с математическим складом ума продолжают развивать параметрическую математической статистики и в последние десятилетия. В частности, сравнительно недавно выяснено, что вместо оценок максимального правдоподобия целесообразно использовать одношаговые оценки, разработаны методы доверительного оценивания для параметров гамма-распределения и т.д.. [3, 4]. Констатируем, что на основе параметрической математической статистики осуществлены попытки решения многих прикладных задач в конкретных областях исследования. Но в ряде случаев получены ошибочные выводы, хотя доля таких случаев заметно меньше, чем опоре на примитивную парадигму.

На смену параметрической статистике пришла непараметрическая статистика, основанная на принципиально иной модели порождения данных. В непараметрической статистике в отличие от параметрической элементы выборки с числовыми значениями предполагаются имеющими произвольную функцию распределения (во многих случаях добавляют еще условие непрерывности).

Развитие параметрической статистики к настоящему времени достигло такого уровня, что непараметрическими методами можно решать столь же обширный круг задач анализа данных, что и параметрическими. Преимущество непараметрической статистики по сравнению с параметрической состоит в том, что нет необходимости принимать необоснованные предположения о виде функции распределения.

У непараметрической статистики есть и недостатки. Один из них порожден тем, что реальные статистические данные довольно часто содержат совпадения. Дело в том, что если функция распределения элементов выборки непрерывна, как это принято в непараметрической статистике, то вероятность совпадения двух или более элементов выборки равна 0. Одной из причин возникновения обсуждаемого противоречия является то, что свойства прагматических чисел, используемых для записи результатов измерений (наблюдений, испытаний, опытов, анализов, обследований), отличаются от свойств математических чисел (например, прагматические числа записываются с помощью конечного числа цифр, а почти все действительные числа требуют - в теории - бесконечного ряда цифр). Предложены подходы к анализу совпадений при применении непараметрических статистических методов, позволяющие частично снять рассматриваемое противоречие [19].

В пользу положительной стороны параметрической статистики необходимо отметить, что в некоторых случаях параметрические методы позволяют обнаружить и предварительно изучить важные эффекты непараметрической статистики. Так, уже отмечалось выше, что распределения реальных данных, как правило, не являются нормальными. Однако математический аппарат в случае нормальности зачастую является более простым. Согласно устаревшей парадигме в математической статистике широко используются многомерные нормальные распределения. Именно для таких распределений найдены явные формулы для различных характеристик в многомерном статистическом анализе, прежде всего в регрессионных постановках. Это связано с тем, что глубоко развита теория квадратичных форм в евклидовом пространстве (квадратичные формы стоят в степени экспоненты, описывающей плотность многомерного нормального распределения). Используя развитый математический аппарат, основанный на многомерной нормальности, удается, например, разработать и изучить методы оценивания размерности вероятностно-статистической модели [20] с целью переноса полученных результатов на непараметрические постановки.

Современная парадигма прикладной статистики и системная нечеткая интервальная математика

Современная парадигма прикладной статистики и, чуть шире - математических методов исследования представлена в работах [15, 21 - 27]. Она основана на применении методов непараметрической и нечисловой статистики. Краткая информация о непараметрической статистике дана в предыдущем разделе.

Стержнем прикладной статистики в XXI в. стала статистика нечисловых данных (статистика объектов нечисловой природы, нечисловая статистика), позволяющая единообразно подходить к анализу статистических данных произвольной природы .

Современную парадигму математических методов исследования называем здесь новой, хотя ее основы сформировались еще в 1980-х годах, когда во время подготовки к созданию Всесоюзной статистической ассоциации (учредительный съезд прошел в 1990 г. [28]) понадобилось проанализировать состояние и перспективы прикладной статистики.

Констатируем, что к настоящему времени теоретические исследования по прикладной статистике проводятся в основном в соответствии с современной парадигмой. Об этом говорят, например, результаты анализа статей, опубликованных в разделе "Математические методы исследования" журнала "Заводская лаборатория. Диагностика материалов" в 2006 - 2015 гг. [29]. (Здесь необходимо отметить, что этот раздел является ключевым в области теоретических работ по прикладной статистике. С момента создания в 1962 г. в нем опубликовано более тысячи статей по прикладной статистике.) Согласно обзору [29] статистике нечисловых данных посвящено 63% работ по прикладной статистике, опубликованных в этом разделе.

Наши работы, посвященным выявлению новой парадигмы прикладной статистики, послужили основой для создания нового перспективного направления теоретической и вычислительной математики - системной нечеткой интервальной математики. раскрывающей одну из сторон новой парадигмы .Ее основная идея - переход от классических действительных чисел как основы математики к прагматическим числам с конечным количеством градаций, к нечетким и интервальным числам. Ключевой публикацией является монография [31] 2014 г., вызвавшая значительный интерес у научной общественности. Её продолжением является монография [32], посвященная работам авторов за 2014 - 2021 гг. Значение системной нечеткой интервальной математики для математики XXI века раскрыто в статьях [33, 34]. Укажем несколько публикаций по этому новому перспективному направлению теоретической и вычислительной математики, которое мы рассматриваем как основу математики XXI века [35 - 37].

Приходится констатировать, что в настоящее время значительная доля прикладных работ осуществляется в традициях устаревшей или даже примитивной парадигм. Такие работы нецелесообразно огульно отрицать. Они могут приносить пользу в конкретных областях. Однако бесспорно, что переход на современную парадигму прикладной статистики повысит научный уровень исследований, а также позволит получить важные результаты в конкретных областях. К сожалению, многие исследователи, связанные с анализом данных, в том числе разработчики программных продуктов по этой тематике, недостаточно знакомы с непараметрической и нечисловой статистикой [30]. Необходимо шире распространять информацию о современной парадигме прикладной статистики.

Опора на подходы и результаты непараметрической и нечисловой статистики - одно из основных требований к статистическим методам анализа данных. Раскроем это утверждение.

Роль вероятностно-статистических моделей данных

Первый этап при разработке и применении методов прикладной статистики - выбор и обоснование вероятностно-статистических моделей данных.

При описании, применении и обсуждении тех или иных процедур анализа статистических данных обычно сосредотачивают внимание на расчетных формулах. Действительно - без формул нельзя провести расчеты. Однако алгоритмы расчетов основаны на вероятностно-статистических моделях порождения изучаемых данных. С этих моделей и надо начинать - и при проведении исследования, и при его описании.

Например, в работах по прикладной статистике наивные авторы под выборкой обычно понимают конечную последовательность чисел. Квалифицированные исследователи в большинстве случаем используют наиболее распространенную модель выборки, согласно которой результаты измерений рассматриваются как конечная последовательность реализаций независимых одинаково распределенных случайных величин [3, 4], моделирующих результаты измерений (наблюдений, испытаний, опытов, анализов, обследований).

Если общая функция распределения этих случайных величин является произвольной, то необходимо обратиться к методам непараметрической статистики. Для реальных данных совпадения результатов встречаются достаточно часто. Следовательно, в таких случаях наблюдается отклонения от непараметрической модели. Как уже отмечалось выше, модель анализа совпадений при расчете значений непараметрических ранговых статистик предложена в работе [19]. Статистика интервальных данных как составная часть нечисловой статистики была создана для обработки округленных данных и данных с совпадениями [3, 4].

Отметим устойчивость предрассудков. Как уже отмечалось, всё ещё распространены соответствующие устаревшей парадигме прикладной статистики представления о том, что функция распределения результатов измерений относится к одному из популярных семейств непрерывных функций распределений - нормальных, логарифмически нормальных, экспоненциальных, Вейбулла-Гнеденко, гамма-распределений, бета-распределений и др. Для выборок из таких семейств в прошлом тысячелетии были разработаны и изучены методы оценивания параметров и проверки статистических гипотез. Эта совокупность методов прочно заняла место в учебниках по теории вероятностей и математической статистике, исполненных в духе устаревшей парадигмы.

Однако и параметрическая статистика развивается, но устаревшие воззрения устойчивы. Например, до сих пор пропагандируется использование метода максимального правдоподобия, хотя одношаговые оценки имеют столь же хорошие свойства, что и оценки максимального правдоподобия. В ряде случаях система уравнений максимального правдоподобия не имеет явного решения в виде конечных расчетных формул, и соответствующие оценки рекомендуется находить теми и или иными итерационными методами. Их сходимость, как правило, не изучают, хотя есть примеры, в которых отсутствие сходимости продемонстрировано. Между тем одношаговые оценки вычисляются по конечным формулам, без всяких итераций [3, 4].

Заметна склонность теоретиков в области математической и прикладной статистики к использованию. многомерным нормальным распределениям. Именно для таких распределений найдены явные формулы для различных характеристик в многомерном статистическом анализе, прежде всего в регрессионном. По нашей экспертной оценке, причина в том, что таким теоретикам удается использовать хорошо развитую в линейной алгебре теорию квадратичных форм.

Давно установлено, что распределения почти всех реальных данных не являются нормальными (гаусссовскими). Это утверждение хорошо обосновано экспериментально при тщательном анализе результатов измерений различных величин [17, 18]. Выдвигают и теоретические аргументы в обоснование использования нормального распределения. Так, утверждают, что зависимость значения случайной величины от многих факторов влечет нормальность. Иногда увеличивают обоснованность такого суждения, добавляя, что факторы являются независимыми и сравнимыми по величине случайными величинами. Однако близость к нормальному распределению можно ожидать лишь при справедливости аддитивной модели порождения данных, когда факторы складываются (это утверждение вытекает из Центральной предельной теоремы теории вероятностей). Если же случайная величина формируется путем перемножения (мультипликативная модель порождения данных), то ее распределение является (в асимптотике) логарифмически нормальным, а не нормальным. Если же справедлива модель "самого слабого" звена (или "самого сильного", рекорда), т.е. значение случайной величины равно крайнему члену вариационного ряда значений факторов (соответственно минимуму или максимуму), то имеем в пределе распределение Вейбулла - Гнеденко. Этот факт установил Б.В. Гнеденко в 1940-х годах, чем и объясняется название рассматриваемого семейства распределений (хотя само семейство ранее использовал В. Вейбулл). Развитие статистических методов прослежено в монографии [38].

Использование модели на основе семейства нормальных распределений можно сравнить с поиском под ярким фонарем потерянных в темных кустах ключей. Очевидно, под фонарем искать легче. Можно продемонстрировать активность. Однако нецелесообразно надеяться на благоприятный исход поисков ключей.

Из проведенного выше методологического анализа следует, что необходимо использовать непараметрических модели для распределений результатов измерений. Отметим, что возможных значений для результатов измерений, как правило, имеют априорные минимум и максимум (например, соответствующие границам шкалы, зафиксированным в техническом паспорте средств измерения). Другими словами, распределения являются финитными. Следовательно, все моменты рассматриваемых случайных величин существуют, и их выборочные аналоги могут использоваться в вычислениях. Это замечание позволяет избавиться от некоторых необходимых условий в предельной теории математической статистики.

Из сказанного вытекают следующее требование к статистическим методам обработки данных: если по каким-либо причинам исследователь желает применить параметрическое семейство распределений, его использование должно быть тщательно обосновано путем проверки статистической гипотезы согласия как с рассматриваемым семейством, так и с альтернативными семействами.

Роль вероятностно-статистических моделей в многомерном статистическом анализе

Начнем с одного из основных разделов многомерного статистического анализа - с регрессионного анализа. Используют несколько основных типов регрессионных моделей. Обсудим простейшую постановку - одна независимая переменная и одна независимая. Кратко охарактеризуем основные используемые модели.

Часто применяют модели метода наименьших квадратов с детерминированной независимой переменной и параметрической зависимостью (линейной, квадратической и т.п.). Естественно принять, что распределение отклонений произвольно (т.е. рассматривают непараметрическую модель). Вывод предельных распределений оценок параметров и регрессионной зависимости основан на Центральной предельной теореме и теореме о линеаризации [3, 4].

Принципиально иной тип моделей основан на выборке случайных векторов. В большинстве случаев зависимость является параметрической, параметры оценивают по выборочным данным Естественно принять, что распределение двумерного вектора произвольно. Об оценке дисперсии независимой переменной (в отличие от зависимой) можно говорить только в модели на основе выборки случайных векторов, равно как и о коэффициенте детерминации как критерии качества модели, в противном случае возможны принципиальные ошибки [39].

Другой тип моделей регрессионного анализа, основанный на выборке случайных векторов - непараметрическая регрессия, в которой как зависимость, так и отклонения от нее являются непараметрическими. Зависимость (как условное среднее) оценивается с помощью непараметрических оценок плотности распределения случайного вектора.

Еще один вариант - модель, в которой тренд линеен, а периодическая и случайная составляющие и отклонения от них являются непараметрическими. Он является промежуточным между двумя только что рассмотренными.

В моделях следующего типа малые погрешности имеются как в значениях зависимой переменной, так и в значениях независимой переменной. Значения переменных естественно описывать интервалами. В прошлом столетии этот раздел прикладной статистики, посвященный моделям указанного типа, назывался конфлюэнтным анализом, сейчас он входит в статистику интервальных данных [3, 4, 31, 40, 41].

Возможно дальнейшее развитие приведенной выше классификации моделей регрессионного анализа. Так, обычно принимают, что погрешности (ошибки, невязки) - независимые одинаково распределенные случайные величины. Можно отказаться как от требования одинаковой распределенности, так и от требования независимости.

Так, если средняя квадратическая погрешности пропорциональна измеряемой величине, то приходим к необходимости минимизации не суммы квадратов разностей значений зависимой переменной и функции от независимой переменной, а другого критерия оптимизации. А именно, в квадрат возводятся частные от деления указанных величин на значения функции от значений независимой переменной. Другими словами, в методе наименьших квадратов надо заменить абсолютные отклонения относительными [42].

Вместо суммы квадратов отклонений можно использовать другие постановки задачи оптимизации, например, минимизировать сумму модулей отклонений (метод наименьших модулей) или максимальное (по модулю) отклонение (метод минимакса).

К регрессионному анализу примыкают задачи сглаживания временных рядов и статистики случайных процессов, в которых отклонения от функции времени зависимы (в отличие от регрессионного анализа, в котором такие отклонения - независимые случайные величины). Другими словами ,при моделировании временных рядов вполне естественно отказаться от требования независимости погрешностей. Более того, поскольку зависимость между значениями случайно функции от времени, как правило, убывает при увеличении расстояния между моментами измерения, то независимость погрешностей можно постулировать лишь тогда, когда моменты измерений значительно отличаются друг от друга.

Можно описывать погрешности не случайными величинами, а нечеткими числами, частным случаем которых являются интервалы, о которых уже шла речь выше.

Мы не пытаемся описать все различные постановки регрессионного анализа. Для этого нужны монографии типа [43]. Однако проведенный выше краткий анализ многообразия моделей регрессионного анализа приводит к выводу, что не существует какой- либо единой "стандартной модели" [44]. Следовательно, при решении и описании задачи восстановления зависимости необходимо начинать с выбора и обоснования той или иной вероятностно-статистической модели порождения данных..

Теория измерений как основа построения вероятностно-статистических моделей

Согласно современным воззрениям, при проведении статистического анализа данных необходимо исходить из теории измерений [3, 4, 31, 40, 41]. Согласно этой теории, первый шаг при анализе данных - выявление шкал, в которых они измерены. Основное требование - применяемые статистические методы должны соответствовать шкалам, в которых измерены данные.

Приведем пример. Статистические выводы, основанные на расчете средних величин, должны быть инвариантны относительно допустимых преобразований шкал измерения статистических данных. Доказано, что для данных, измеренных в порядковой шкале, в качестве средних величин можно использовать только конечное число функций от результатов измерений, а именно члены вариационного ряда. При нечетном объеме выборки - медиану, а при четном - левую медиану или правую медиану, Применение, например, среднего арифметического или среднего геометрического недопустимо. Как следствие, поскольку широко используемые в прикладных исследованиях ранги или баллы, как правило, измерены в порядковой шкале, рассчитывать для них среднее арифметическое нельзя. В частности, согласно современной прикладной статистике нельзя оценивать успеваемость учащихся по среднему баллу экзаменационных оценок [44].

Основное требование: статистические выводы, основанные на расчете тех или иных статистик (функций от результатов измерений), должны быть инвариантны относительно допустимых преобразований шкал измерения данных. Следовательно, перед исследователями в области теории прикладной статистики возникает первостепенная задача: для каждой используемой ими шкалы выяснить, какими алгоритмами анализа данных из рассматриваемого ими семейства алгоритмов можно пользоваться в этой шкале. Выше кратко описаны выводы относительно использования семейства средних по Коши.

Важна и обратная задача - для определенного алгоритма анализа данных выяснить, в какой шкале можно им пользоваться. Установлено, что коэффициент линейной парной корреляции Пирсона соответствует шкале интервалов, в то время как непараметрические ранговые коэффициенты корреляции Спирмена и Кендалла нацелены на изучение взаимосвязи порядковых переменных.

На основе теории измерений кратко рассмотрим довольно широко известный метод анализа иерархий. Исходные данные в этом методе - результаты парных сравнений, они измерены в порядковых шкалах. А результаты расчетов по методу анализа иерархий выражены в шкале интервалов, как утверждают энтузиасты этого метода. С точки зрения теории измерений такое недопустимо. Результаты расчетов (статистические выводы) должны быть измерены в той же шкале, что и исходные данные. Следовательно, с точки зрения теории измерений методом анализа иерархий пользоваться не следует. Рекомендуем применять адекватные метода анализа экспертных оценок, в частности, методы средних арифметических рангов, медиан рангов, согласования кластеризованных ранжировок [46, 47].

Обучающие выборки в задачах диагностики и нейросети

При обсуждении идей и результатов настоящей статьи было отмечено, что вполне естественно распространить разрабатываемые требования на смежную (близкородственную) область - нейросетевую обработку данных. Учитывая значительное взаимопроникновение вероятностно-статистических и нейросетевых методов, это представляется весьма полезным.

На наш взгляд, начать надо с обсуждения терминологии [48]. Как соотносятся прикладная статистика и нейросетевые методы?

С целью реализации этой идеи рассмотрим в качестве базового примера соотношение прикладной статистики и нейросетевой обработки данных в области математической теории классификации [49]. В этой теории выделяют три раздела - построение классификаций, изучение классификаций, применение классификаций [3, 4]. Если изучение классификаций обычно рассматривают как часть статистики нечисловых данных, то две другие области имеют в литературе самые разные названия.

Синонимы понятия "построение классификаций", по нашему мнению, таковы: кластер-анализ (полная форма термина - кластерный анализ), распознавание образов без учителя, типология, таксономия, группировка, классификация без учителя, дихотомия ... К такому выводу автор пришел в результате анализа сотен работ с использованием перечисленных терминов.

Аналогично синонимами термина "применение классификаций" являются: методы дискриминации (дискриминантный анализ), в одном из наиболее распространенном варианте - математические методы диагностики, распознавание образов с учителем, автоматическая классификация с учителем, статистическая классификация ...

Здесь под "учителем" понимают способы построения правил принятия решений на основе обучающих выборок. Предполагается, что для каждого из классов имеется обучающая выборка, т.е. выборка элементов их этого класса. На основе обучающих выборок строится правило принятия решений о том, к какому классу отнести вновь поступающий объект.

Когда говорят об алгоритмах без учителя, то это значит, что речь идет о построении классификации на основе анализа данных единой обучающей выборки, для элементов которой не указано, к какому классу этот элемент относится. Алгоритмы без учителя основаны на тех или иных мерах близости между элементами (показателях различия).

В настоящее время "нейросети" - весьма популярный термин. Речь идет о различных математических моделях (а также разработанных на их основе алгоритмов, их программной или аппаратной реализации), построенных по аналогии с сетями нервных клеток живого организма. Первые такие модели были разработаны в середине ХХ в. при изучении процессов, протекающих в мозге человека. Была сделана попытка смоделировать эти процессы (на уровне знаний того времени). В настоящее время известно, что человеческий мозг работает иначе, предполагают энтузиасты нейросетей.

При внимательном анализе основных идей нейросетевых методов становится очевидным, что эти модели предназначены прежде всего для решения задач классификации на основе анализа обучающих выборок. Другими словами, классические задачи теории классификации решаются не так, как это делали ранее в прикладной статистике.

Теория математической статистики позволяет сравнивать алгоритмы классификации по качеству. Для задач диагностики целесообразно проводить сравнение на основе прогностической силы алгоритма [50, 51]. Оказывается, что нейросетевые алгоритмы, как правило, не являются оптимальными. Например, в теории классификации доказано, что для отнесения вновь поступающего объекта в один из двух классов, заданных обучающими выборками, (асимптотически) оптимальным является решающее правило, основанное на непараметрических оценках плотностей распределений вероятностей, соответствующих классам [3, 4, 49]. Нейросетевые методы не могут дать лучшего результата, чем это решающее правило. К сожалению, частое упоминание нейросетей в современной литературе приводит к забвению оптимальных методов и алгоритмов (это естественно в силу ограниченных возможностей человеческого мозга по восприятию и осмыслению информации), что, естественно, снижает эффективность технологических решений искусственного интеллекта.

Приходим к выводу, что нейросети, методы распознавания образов, и, например, генетические алгоритмы, - это другие названия ряда давно разрабатываемых разделов прикладной статистики (статистических методов анализа данных) [52, 53]. Усилиями журналистов и публицистов, не очень разбирающихся в идеях и научных результатах прикладной статистики, новая терминология оказалась в центре внимания научной общественности. Это произошло по вненаучным причинам, которые выявлены в заключительной части статьи [48].

Выводы

В настоящей статье обоснована необходимость разработки системы требований к статистическим моделям и методам при их создании, применении и преподавании, в том числе при их описании в научных и методических публикациях.

Подчеркнем, что прежде всего должна быть представлена и обоснована вероятностно-статистическая модель порождения данных. Полезный анализ иерархической структуры понятия "модель" и потенциальных источников ошибок при построении, изучении, применении и преподавании вероятностно-статистических моделей реальных данных представлен в статье [54].

Приведем краткие формулировки ряда требований к статистическим методам, проанализированных выше.

Поскольку практически все распределения реальных данных ненормальны, предпочтения следует отдавать непараметрическим постановкам. Возможность применения параметрических семейств распределений должны быть тщательно обоснована.

В соответствии с теорией проверки статистических гипотез должны быть указаны не только нулевая гипотеза, но и альтернативная, только тогда можно обсуждать мощность критерия.

Необходимо изучение устойчивости выводов, получаемых на основе организационно-экономической модели, относительно допустимых изменений исходных данных и предпосылок модели [55]. В частности, статистические выводы должны быть инвариантны относительно допустимых преобразований шкал.

Обоснованию основных требований к статистическим методам анализа данных на примере задач классификации (диагностики и кластер-анализа) посвящены соответствующие разделы работ [3, 4, 52, 53].

Проблемам разработки системы требований к статистическим моделям и методам будет посвящен ряд дальнейших публикаций. Автор благодарен проф. В.О. Толчееву за полезные замечания.

Литература

1. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория. 1985. Т.51. No.1. С. 60-62.

2. Орлов А.И. Непараметрические критерии согласия Колмогорова, Смирнова, Омега-квадрат и ошибки при их применении // Научный журнал КубГАУ. 2014. No.97. С. 647-675.

3. Орлов А. И. Прикладная статистика. - М.: Экзамен, 2006. - 671 с.

4. Орлов А. И. Прикладной статистический анализ. - М.: Ай Пи Ар Медиа, 2022. - 812 c. https://www.iprbookshop.ru/117038.html, https://doi.org/10.23682/117038

5. Орлов А. И. Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики / А.И. Орлов, Н.Г. Миронова, В.Н. Фомин, А.Н. Черчинцев. - М.: ВНИИСтандартизации, 1987. - 62 с.

6. Орлов А. И. Основные характеристики статистических методов обработки данных и требования к ним / А.И. Орлов, Н.Г. Миронова, В.Н. Фомин, А.Н. Черчинцев // Доклады Московского Общества испытателей природы 1987 г. Общая биология: Морфология и генетика процессов роста и развития. - М.: Наука, 1989. С.66-68.

7. Орлов А. И. Эконометрика. Учебник для вузов. Изд. 3-е, переработанное и дополненное. - М.: Изд-во "Экзамен", 2004. - 576 с.

8. Орлов А. И. Эконометрика : учебное пособие. - М., Саратов : Интернет-Университет Информационных Технологий (ИНТУИТ), Ай Пи Ар Медиа, 2020. - 676 c.

9. Бурбаки Н. Очерки по истории математики. - М.: Изд-во иностранной литературы, 1963. - 292 с.

10. Орлов А. И. Сертификация статистических методов, пакетов программ и систем обучения // Международная конференция по интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92). Москва, 22-26 сентября 1992 г. Сборник трудов. - М.: Изд-во МЭИ, 1992. - Том 1. С. 125-128. Т.2. С. 88-88.

11. Орлов А. И. Сертификация и статистические методы (обобщающая статья) // Заводская лаборатория. Диагностика материалов. 1997. Т.63. No.3. С. 55-62.

12. Орлов А. И. Основные требования к методам анализа данных (на примере задач классификации) // Научный журнал КубГАУ. 2020. No.159. С. 239-267. http://dx.doi.org/10.21515/1990-4665-159-017

13. Орлов А. И. Основные требования к математическим методам классификации // Заводская лаборатория. Диагностика материалов. 2020. Т.86. No. 11. С. 67-78.

14. Орлов А. И. Контроллинг и статистические методы / Контроллинг в экономике, организации производства и управлении: сборник научных трудов X международного конгресса по контроллингу, (Ярославль, 22 октября 2021 г.) / Под научной редакцией д.э.н., профессора С.Г. Фалько / НП "Объединение контроллеров". - М.: НП "Объединение контроллеров", 2021. - С. 65 - 74.

15. Орлов А. И. Новая парадигма математических методов исследования // Заводская лаборатория. Диагностика материалов. 2015. Т.81. No..7. С. 5-5.

16. Налимов В. В. Теория эксперимента. - М.: Наука, 1971. - 208 с.

17. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. 1991 Т.57. No.7. С. 64-66.

18. Орлов А.И. Распределения реальных статистических данных не являются нормальными // Научный журнал КубГАУ. 2016. No.117. С. 71 - 90.

19. Орлов А. И. Модель анализа совпадений при расчете непараметрических ранговых статистик // Заводская лаборатория. Диагностика материалов. 2017. Т.83. No.11. С. 66-72.

20. Орлов А. И. Оценивание размерности вероятностно-статистической модели / Научный журнал КубГАУ. 2020. No.162. С. 1-36.

21. Орлов А.И. Новая парадигма прикладной статистики // Статистика и прикладные исследования: сборник трудов Всерос. научн. конф. - Краснодар: Издательство КубГАУ, 2011. - С. 206-217.

22. Орлов А. И. Новая парадигма прикладной статистики // Заводская лаборатория. Диагностика материалов. 2012. Т.78. No.1. С. 87-93.

23. Орлов А.И. Новая парадигма математической статистики // Материалы республиканской научно-практической конференции "Статистика и её применения - 2012". Под редакцией проф. А.А. Абдушукурова. - Ташкент: НУУз, 2012. - С. 21-36.

24. Орлов А.И. Основные черты новой парадигмы математической статистики // Научный журнал КубГАУ. 2013. No.90. С. 188-214.

25. Орлов А.И. О новой парадигме прикладной математической статистики // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. - Пермь, 2013. - Вып. 25. -С. 162-176.

26. Орлов А.И. О новой парадигме математических методов исследования // Научный журнал КубГАУ. 2016. No.122. С. 807-832.

27. Орлов А. И. Смена парадигм в прикладной статистике // Заводская лаборатория. Диагностика материалов. 2021. Т.87. No. 7. С. 6-7.

28. Орлов А.И. Создана единая статистическая ассоциация // Вестник Академии наук СССР. 1991. No.7. С. 152-153.

29. Орлов А. И. Развитие математических методов исследования (2006 - 2015 гг.) // Заводская лаборатория. Диагностика материалов. 2017. Т.83. No.1. Ч.1. С. 78-86.

30. Орлов А.И. Статистические пакеты - инструменты исследователя // Заводская лаборатория. Диагностика материалов. 2008. Т.74. No.5. С.76-78.

31. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с.

32. Орлов А.И., Луценко Е.В. Анализ данных, информации и знаний в системной нечеткой интервальной математике: научная монография. - Краснодар: КубГАУ, 2022. - 405 с.

33. Орлов А.И. Системная нечеткая интервальная математика - основа математики XXI века // Научный журнал КубГАУ. 2021. No.165. С. 111-130.

34. Орлов А.И. Системная нечеткая интервальная математика - основа инструментария математических методов исследования // Заводская лаборатория. Диагностика материалов. 2022. Т.88. No.7. С. 5-7. DOI: https://doi.org/10.26896/1028-6861-2022-88-7-5-7. https://www.elibrary.ru/item.asp?id=49182008

35. Орлов А.И., Луценко Е.В. О развитии системной нечеткой интервальной математики // Философия математики: актуальные проблемы. Математика и реальность. Тезисы Третьей всероссийской научной конференции; 27-28 сентября 2013 г. / Редкол.: Бажанов В.А. и др. - Москва, Центр стратегической конъюнктуры, 2013. - С. 190-193.

36. Орлов А.И., Е.В. Луценко. Системная нечеткая интервальная математика (СНИМ) - перспективное направление теоретической и вычислительной математики // Научный журнал КубГАУ. 2013. No.91. С. 255-308.

37. Луценко Е.В., Орлов А.И. Когнитивные функции как обобщение классического понятия функциональной зависимости на основе теории информации в системной нечеткой интервальной математике // Научный журнал КубГАУ. 2014. No.95. С. 122-183.

38. Лойко В.И., Луценко Е.В., Орлов А.И. Высокие статистические технологии и системно-когнитивное моделирование в экологии : монография. - Краснодар : КубГАУ, 2019. - 258 с.

39. Орлов А. И. Ошибки при использовании коэффициентов корреляции и детерминации // Заводская лаборатория. Диагностика материалов. 2018. Т.84. No. 3. С. 68-72.

40. Орлов А.И. Теория принятия решений. Учебник для вузов. - М.: Экзамен, 2006. - 576 с.

41. Орлов А.И. Теория принятия решений : учебник. - М.: Ай Пи Ар Медиа, 2022. - 826 c. - ISBN 978-5-4497-1467-1. - Текст : электронный // IPR SMART : [сайт]. - URL: https://www.iprbookshop.ru/117047.html

42. Копаев Б.В. В методе наименьших квадратов надо заменить абсолютные отклонения относительными // Заводская лаборатория. Диагностика материалов. 2012. Т.88. No.7. С. 76-76.

43. Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.

44. Орлов А. И. Многообразие моделей регрессионного анализа (обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2018. Т.84. No.5. С. 63-73.

45. Орлов А.И. Характеризация средних величин шкалами измерения // Научный журнал КубГАУ. 2017. No.134. С. 877-907.

46. Орлов А. И. Организационно-экономическое моделирование: в 3 ч. Ч.2. Экспертные оценки. - М.: Изд-во МГТУ им. Н. Э. Баумана, 2011. - 486 с.

47. Орлов А. И. Искусственный интеллект: экспертные оценки. - М.: Ай Пи Ар Медиа, 2022. - 436 c. https://doi.org/10.23682/117030

48. Орлов А. И. Смена терминологии в развитии науки // Научный журнал КубГАУ. 2022. No.177. С. 232-246. http://dx.doi.org/10.21515/1990-4665-177-013

49. Орлов А. И. Базовые результаты математической теории классификации // Научный журнал КубГАУ. 2015. No.110. С. 219-239.

50. Орлов А.И. Прогностическая сила как показатель качества алгоритма диагностики // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. Вып.23. - Пермь: Перм. гос. нац. иссл. ун-т, 2011. - С. 104-116.

51. Орлов А.И. Прогностическая сила - наилучший показатель качества алгоритма диагностики // Научный журнал КубГАУ. 2014. No.99. С. 15-32.

52. Орлов А. И. Искусственный интеллект: нечисловая статистика. - М.: Ай Пи Ар Медиа, 2022. - 446 c. https://www.iprbookshop.ru/117028.html, https://doi.org/10.23682/117028

53. Орлов А. И. Искусственный интеллект: статистические методы анализа данных. - М.: Ай Пи Ар Медиа, 2022. - 843 c. https://www.iprbookshop.ru/117029.html, https://doi.org/10.23682/117029

54. Савельев О. Ю. Модель: иерархия понятия и потенциальный источник ошибок // Инновации в менеджменте. 2021. No.28. С. 54-58.

55. Орлов А. И. Устойчивые экономико-математические методы и модели : монография. - М.: Ай Пи Ар Медиа, 2022. - 337 c. https://www.iprbookshop.ru/117049.html, https://doi.org/10.23682/117049

Публикация:

1238. Орлов А.И. Основные требования к статистическим методам анализа данных // Научный журнал КубГАУ. 2022. No.181. С. 316-343 (на английском языке)..

*   *   *   *   *   *   *

На сайте "Высокие статистические технологии", расположенном по адресу http://orlovs.pp.ru, представлены:

На сайте есть форум, в котором вы можете задать вопросы профессору А.И.Орлову и получить на них ответ.

*   *   *   *   *   *   *

Удачи вам и счастья!


В избранное