Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 1128


"Эконометрика", 1128 выпуск, 5 сентября 2022 года.

Электронная газета кафедры "Экономика и организация производства" научно-учебного комплекса "Инженерный бизнес и менеджмент" МГТУ им.Н.Э. Баумана. Выходит с 2000 г.

Здравствуйте, уважаемые подписчики!

*   *   *   *   *   *   *

Вышла наша новая книга: Орлов А.И., Луценко Е.В. Анализ данных, информации и знаний в системной нечеткой интервальной математике: научная монография. Предлагаем познакомиться с аннотацией, оглавлением, содержанием, предисловием и заключением.

Все вышедшие выпуски доступны в Архиве рассылки по адресу subscribe.ru/catalog/science.humanity.econometrika.

*   *   *   *   *   *   *

Министерство сельского хозяйства РФ

ФГБОУ ВО "Кубанский государственный аграрный университет имени И. Т. Трубилина"

А. И. Орлов, Е. В. Луценко

Анализ данных, информации и знаний в системной нечеткой интервальной математике

Монография

Краснодар

КубГАУ

2022

УДК 004.8 (075.8) ББК 32.965 О66

Р е ц е н з е н т ы :

В. В. Степанов - профессор кафедры информатики и вычислительной техники Кубанского государственного технологического университета, д-р техн. наук, профессор;

Г. А. Аршинов - профессор кафедры компьютерных технологий и систем Кубанского государственного аграрного университета, д-р техн. наук, канд. физ.-мат. наук, профессор

Орлов А. И., Луценко Е.В. Анализ данных, информации и знаний в системной нечеткой интервальной математике: научная монография. - Краснодар: КубГАУ, 2022. - 405 с.

ISBN 978-5-907550-62-9

В монографии рассматриваются теоретические основы системной нечеткой интервальной математики, соотношение смыслового содержания понятий "данные", "информация" и "знания", теоретические и математические основы базового, сценарного, спектрального и текстового автоматизированного системно-когнитивного анализа (АСК-анализ). Приводятся численные примеры применения сценарного и спектрального АСК-анализа для прогнозирования на финансовых рынках и анализа изображений.

Предназначена для обучающихся бакалавриата, магистратуры и аспирантуры, а также преподавателей, исследователей и разработчиков в области высоких статистических технологий и искусственного интеллекта, для всех интересующихся данной проблематикой.

УДК 004.8 (075.8)

ББК 32.965

DOI: 10.13140/RG.2.2.15688.44802

Орлов А. И., Луценко Е. В., 2022

ФГБОУ ВО "Кубанский государственный аграрный университет имени И. Т. Трубилина", 2022

ISBN 978-5-907550-62-9

Оглавление

Предисловие ... 10

Часть 1-я. Теоретические основы системной нечеткой интервальной математики ... 20

Глава 1. О новой парадигме математических методов исследования ... 20

Глава 2. Статистика нечисловых данных - центральная часть современной прикладной статистики ... 32

Глава 3. Асимптотика оценок плотности распределения вероятностей ... 46

Глава 4. Основные идеи статистики интервальных данных ... 64

Глава 5. Вероятностно-статистические модели корреляции и регрессии ... 78

Глава 6. Оценивание размерности вероятностно-статистической модели ... 98

Глава 7. Основные требования к методам анализа данных (на примере задач классификации) ... 119

Глава 8. Применение метода Монте-Карло при изучении свойств статистических критериев однородности двух независимых выборок ... 134

Глава 9. Системная нечеткая интервальная математика и современная эконометрика ... 150

Глава 10. Системная нечеткая интервальная математика - основа математики XXI века ... 164

Часть 2-я. Автоматизированный системно-когнитивный анализ как метод преобразования данных в информацию, а ее в знания и применения этих знаний для решения задач в различных предметных областях ... 175

Глава 11. Понятия данных, информации и знаний, сходство и различия между ними ... 175

Глава 12. Базовый автоматизированный системно-когнитивный анализ и система ЭЙДОС как метод и инструментарий решения задач ... 188

Глава 13. Сценарный автоматизированный системно-когнитивный анализ ... 213

Глава 14. Спектральный автоматизированный системно-когнитивный анализ конкретных и обобщенных изображений ... 317

Глава 15. Автоматизированный системно-когнитивный анализ текстов ... 363

Заключение ... 369

Литература ... 371

Литература к главе 1 ... 371

Литература к главе 2 ... 374

Литература к главе 3 ... 376

Литература к главе 4 ... 377

Литература к главе 5 ... 379

Литература к главе 6 ... 380

Литература к главе7 ... 382

Литература к главе 8 ... 384

Литература к главе 9 ... 385

Литература к главе 10 ... 389

Литература к главе 11 ... 390

Литература к главе 12 ... 392

Литература к разделам 13.1, 13.2 главы 13 ... 395

Литература к разделу 13.3 главы 13 ... 398

Литература к главе 14 ... 399

Литература к главе 15 ... 403

Содержание

Предисловие ... 10

Часть 1-я. Теоретические основы системной нечеткой интервальной математики ... 20

Глава 1. О новой парадигме математических методов исследования ... 20

1.1. Краткая формулировка новой парадигмы ... 20

1.2. Новая парадигма в области математических и инструментальных методов экономики ... 22

1.3. Основные понятия ... 23

1.4. Разработка новой парадигмы ... 24

1.5. Сравнение старой и новой парадигм ... 25

1.6. Учебная литература, подготовленная в соответствии с новой парадигмой ... 28

Глава 2. Статистика нечисловых данных - центральная часть современной прикладной статистики ... 32

2.1. Различные виды нечисловых данных ... 33

2.2. Об истории и структуре статистической науки ... 35

2.3. О развитии статистики нечисловых данных ... 37

2.4. Основные идеи статистики в пространствах общей природы ... 38

2.5. О некоторых областях статистики конкретных нечисловых данных ... 42

2.6. Некоторые нерешенные задачи статистики нечисловых данных ... 44

Глава 3. Асимптотика оценок плотности распределения вероятностей ... 46

3.1. Круговая функция распределения ... 48

3.2. Первые оценки скорости сходимости ... 49

3.3. Примеры ядерных оценок ... 50

3.4. Улучшение скорости сходимости ядерных оценок ... 51

3.5. Гистограммные оценки ... 53

3.6. Оценки типа Фикс-Ходжеса ... 57

3.7. Непараметрические оценки регрессии ... 59

3.8. Дискриминантный анализ в пространстве общей природы ... 63

Глава 4. Основные идеи статистики интервальных данных ... 64

4.1. Развитие статистики интервальных данных ... 64

4.2. Основные идеи статистики интервальных данных ... 68

4.3. Основные результаты в вероятностной модели ... 70

4.4. Рациональный объем выборки ... 71

4.5. Оценивание математического ожидания ... 72

4.6. Оценивание дисперсии ... 74

4.7. Статистика интервальных данных в прикладной статистике ... 75

4.8. Заключительные замечания ... 77

Глава 5. Вероятностно-статистические модели корреляции и регрессии ... 78

5.1. Значимость отличия от 0 и "шкала Чеддока" ... 79

5.2. Активный и пассивный эксперименты ... 80

5.3. Влияние выбросов на коэффициент корреляции ... 81

5.4. Вздувание коэффициентов корреляции ... 82

5.5. Коэффициент детерминации ... 83

5.6. Многообразие моделей и методов регрессионного анализа ... 83

5.7. Модели с детерминированной независимой переменной ... 85

5.8. Модели анализа случайных векторов ... 87

5.9. Сглаживание временных рядов ... 88

5.10. Методы восстановления зависимостей в пространствах общей природы ... 89

5.11. Оценивание объектов нечисловой природы в классических постановках регрессионного анализа ... 92

5.12. Регрессионный анализ интервальных данных ... 96

5.13. Заключительные замечания ... 97

Глава 6. Оценивание размерности вероятностно-статистической модели ... 98

6.1. О содержании этой главы ... 98

6.2. Асимптотическое поведение ряда оценок степени полинома в регрессии ... 98

6.3. Состоятельные оценки размерности и структуры модели в регрессии ... 108

6.4. Оценивание числа элементов смеси в задачах классификации ... 111

6.5. Оценка размерности модели в факторном анализе и многомерном шкалировании ... 113

6.6. Регрессия после классификации ... 115

6.7. Использование оптимизационной формулировки ряда задач прикладной статистики ... 117

Глава 7. Основные требования к методам анализа данных (на примере задач классификации) ... 119

7.1. Требования к методам анализа данных и представлению результатов расчетов ... 120

7.2. О границах применимости вероятностно-статистических методов ... 130

7.3. О некоторых постановках задач классификации ... 131

Глава 8. Применение метода Монте-Карло при изучении свойств статистических критериев однородности двух независимых выборок ... 134

8.1. Метод статистических испытаний - инструмент исследователя ... 135

8.2. Дискуссия о современном состоянии и перспективах развития статистического моделирования ... 136

8.3. Статистические критерии проверки однородности двух независимых выборок ... 138

8.4. Постановка задачи изучения статистических критериев методом статистических испытаний ... 140

8.5. Вычислительные эксперименты ... 142

8.6. Частота совпадений статистических выводов по разным критериям ...147

Глава 9. Системная нечеткая интервальная математика и современная эконометрика ... 150

9.1. О содержании учебной литературы по эконометрике ... 150

9.2. Выборочные исследования ... 152

9.3. Метод наименьших квадратов ... 152

9.4. Эконометрический анализ инфляции ... 153

9.5. Методы экспертных оценок ... 154

9.6. Теория измерений и средние величины ... 154

9.7. Введение в теорию риска ... 155

9.8. Основы статистики нечисловых данных ... 156

9.9. Непосредственный анализ статистических данных ... 156

9.10. Контрольные работы и домашние задания первого семестра ... 157

9.11. Статистический контроль ... 157

9.12. Эконометрический анализ связанных выборок ... 158

9.13. Основы теории нечетких множеств ... 159

9.14. Элементы статистики интервальных данных ... 159

9.15. Основы теории классификации ... 160

9.16. Элементы теории рейтингов ... 161

9.17. Эконометрика как научная дисциплина ... 161

9.18. Контрольные работы и домашние задания второго семестра ... 162

9.19. Заключительные замечания ... 163

Глава 10. Системная нечеткая интервальная математика - основа математики XXI века ... 164

10.1. О структуре математики как области деятельности ... 164

10.2. Определения математики ... 165

10.3. Аксиоматические теории ... 166

10.4. Два направления в математике ... 167

10.5. Области математики ... 168

10.6. Математические, прагматические и компьютерные числа ... 169

10.7. Моделирование связей математических и прагматических чисел ... 170

10.8. Системная нечеткая интервальная математика в математике XXI века ... 171

10.9. Некоторые распространенные заблуждения ... 173

10.10. Организационные вопросы развития математики ... 174

10.11. Кратко о многообразии литературных источников ... 174

Часть 2-я. Автоматизированный системно-когнитивный анализ как метод преобразования данных в информацию, а ее в знания и применения этих знаний для решения задач в различных предметных областях ... 175

Глава 11. Понятия данных, информации и знаний, сходство и различия между ними ... 175

11.1. Данные, подходы к определению ... 175

11.2. Информация и данные ... 177

11.3. Знания и информация ... 180

11.4. От больших данных к большой информации, а от нее к большим знаниям ... 183

11.5. Основные термины баз данных, информационных и интеллектуальных систем ... 183

11.6. Критерии идентификации банков данных, информационных и интеллектуальных систем ... 186

Глава 12. Базовый автоматизированный системно-когнитивный анализ и система ЭЙДОС как метод и инструментарий решения задач ... 188

12.1. Очень кратко об АСК-анализе ... 188

12.2. Очень кратко о системе "Эйдос" ... 189

12.3. Немного подробнее об этапах АСК-анализа ... 194

12.3.1. Когнитивная структуризация предметной области. Две интерпретации классификационных и описательных шкал и градаций ... 196

12.3.2. Формализация предметной области ... 196

12.3.3. Синтез статистических и системно-когнитивных моделей (многопараметрическая типизация), частные критерии знаний ... 197

12.3.4. Верификация моделей ... 203

12.3.5. Выбор наиболее достоверной модели ... 203

12.3.6. Решение задачи идентификации и прогнозирования ... 204

12.3.6.1. Интегральный критерий "Сумма знаний" ... 204

12.3.6.2. Интегральный критерий "Семантический резонанс знаний" ... 205

12.3.6.3. Важные математические свойства интегральных критериев ... 206

12.3.7. Решение задачи принятия решений ... 207

12.3.7.1. Упрощенный вариант принятия решений как обратная задача прогнозирования, позитивный и негативный информационные портреты классов, SWOT-анализ ... 207

12.3.7.2. Развитый алгоритм принятия решений в АСК-анализе ... 208

12.3.8. Решение задачи исследования объекта моделирования путем исследования его модели ... 208

12.3.8.1. Инвертированные SWOT-диаграммы значений описательных шкал (семантические потенциалы) ... 208

12.3.8.2. Кластерно-конструктивный анализ классов ... 208

12.3.8.3. Кластерно-конструктивный анализ значений описательных шкал ... 209

12.3.8.4. Модель знаний системы "Эйдос" и нелокальные нейроны ... 209

12.3.8.5. Нелокальная нейронная сеть ... 210

12.3.8.6. 3D-интегральные когнитивные карты ... 210

12.3.8.7. 2D-интегральные когнитивные карты содержательного сравнения классов (опосредованные нечеткие правдоподобные рассуждения) ... 210

12.3.8.8. 2D-интегральные когнитивные карты содержательного сравнения значений факторов (опосредованные нечеткие правдоподобные рассуждения) ... 211

12.3.8.9. Когнитивные функции ... 211

12.3.8.10. Значимость описательных шкал и их градаций ... 212

12.3.8.11. Степень детерминированности классов и классификационных шкал ... 212

Глава 13. Сценарный автоматизированный системно-когнитивный анализ ... 213

13.1. Объект, предмет, проблема, цель, метод и задачи исследования ... 213

13.2. Теоретическое решение проблемы исследования ... 217

13.2.1. Суть математической модели классического АСК-анализа ... 217

13.2.1.1. Способ формализации предметной области в АСК-анализе, классификационные и описательные шкалы и градации и обучающая выборка ... 217

13.2.1.2. Синтез системно-когнитивных моделей как разработка обобщенных базисных функций классов путем многопараметрической типизации функций состояний конкретных объектов или ситуаций моделирования ... 219

13.2.1.3. Прогнозирование и системная идентификация как разложение функции ситуации (объекта) в ряд по функциям классов (объектный анализ) ... 224

13.2.1.4. Математические определения основных понятий АСК-анализа, связанных с теоремой А.Н.Колмогорова ... 227

13.2.1.5. Математическая формулировка теоремы А.Н.Колмогорова для классического АСК-анализа ... 229

13.2.1.6. Объекты математической модели АСК-анализа как алгебраические структуры в рамках высшей алгебры ... 232

13.2.1.7. Значимость значения фактора, степень детерминированности класса и ценность модели ... 232

13.2.1.8. Абсолютная и относительная сходимость прогнозного ряда. Ортонормирование системы функций классов: в какой степени оно действительно необходимо? ... 233

3.2.2. Суть математической модели сценарного АСК-анализа ... 237

13.2.2.1. Идея и концепция сценарного АСК-анализа ... 237

13.2.2.2. Математическая формулировка теоремы А.Н.Колмогорова для сценарного АСК-анализа .. 239

13.2.2.3. Постановка задачи прогнозирования сценариев будущих событий (классов) на основе сценариев прошлых событий (значений факторов) ... 240

13.2.2.4. Алгоритм выявления сценариев изменения значений факторов и сценариев поведения объекта моделирования ... 241

13.2.2.5. Разработка частных положительных и отрицательных прогнозов и оценка их достоверности как разложение функции ситуации в ряд по функциям классов ... 242

13.2.2.6. Формирование средневзвешенных положительных (что будет) и отрицательных (чего не будет) прогнозов как преобразование, обратное разложению функции ситуации в ряд по функциям классов ... 243

13.2.2.7. Технический и фундаментальный подходы и их синтез в сценарном АСК-анализе ... 244

13.2.3. Развитый алгоритм принятия решений АСК-анализа ... 244

13.3. Практическое решение проблемы исследования в системе "Эйдос" на примере прогнозирования курсов акций компании Google и сценариев их изменения ... 249

13.3.1. Введение. Постановка цели и задач исследования ... 249

13.3.2. Задача 1: когнитивная структуризация предметной области ... 251

13.3.3. Задача 2: подготовка исходных данных и формализация предметной области ... 255

13.3.3.1. Автоматизированный программный интерфейс (API) ввода числовых и текстовых данных и таблиц ... 255

13.3.3.2. Классификационные и описательные шкал и градации и обучающая выборка .. 261

13.3.3.3. Будущие и прошлые сценарии изменения значений градаций базовых шкал ... 265

13.3.4. Задача 3: синтез и верификация моделей и выбор наиболее достоверной модели ... 268

13.3.4.1. Синтез и верификация статистических и системно-когнитивных моделей ... 268

13.3.4.2. Оценка достоверности моделей ... 271

13.3.4.3. Задание текущей модели ... 275

13.3.5. Задача 4: решение различных задач в наиболее достоверной модели ... 276

13.3.5.1. Подзадача 4.1. Прогнозирование (диагностика, классификация, распознавание, идентификация) ... 276

13.3.5.2. Подзадача 4.2. Поддержка принятия решений в простейшем варианте (SWOT-анализ) ... 284

13.3.5.3. Подзадача 4.2. Развитый алгоритм принятия решений ... 289

13.3.5.4. Подзадача 4.3. Исследование моделируемой предметной области путем исследования ее модели ... 292

13.3.5.4.1. Когнитивные диаграммы классов ... 292

13.3.5.4.2. Агломеративная когнитивная кластеризация классов ... 294

13.3.5.4.3. Когнитивные диаграммы значений факторов ... 295

13.3.5.4.4. Агломеративная когнитивная кластеризация значений факторов ... 297

13.3.5.4.5. Нелокальные нейроны и нелокальные нейронные сети ... 299

13.3.5.4.6. 3d-интегральные когнитивные карты .. 300

13.3.5.4.7. Когнитивные функции ... 301

13.3.5.4.8. Сила и направление влияния значений факторов на принадлежность к классам ... 304

13.3.5.4.9. Степень детерминированности классов значениями обуславливающих их факторов ... 311

13.3.6. Выводы ... 315

13.4. Выводы ... 315

Глава 14. Спектральный автоматизированный системно-когнитивный анализ конкретных и обобщенных изображений ... 317

14.1. Введение ... 317

14.2. Постановка задачи ... 318

14.3. Исходные данные ... 318

14.4. Формализация предметной области ... 319

14.4.1. Классификационные и описательные шкалы и градации ... 323

14.4.2. Обучающая выборка ... 324

14.5. Синтез и верификация модели ... 325

14.6. Выбор наиболее достоверной модели и придание ей статуса текущей ... 328

14.7. Спектры конкретных изображений ... 333

14.8. Спектры обобщенных изображений классов ... 339

14.9. Решение задач в наиболее достоверной модели ... 342

14.9.1. Решение задачи сравнения конкретных изображений с обобщенными образами классов ... 342

14.9.2. Решение задачи сравнения обобщенных образов классов друг с другом (задача кластерно-конструктивного анализа классов) ... 344

14.9.3. Решение задачи сравнения обобщенных образов признаков друг с другом (задача кластерно-конструктивного анализа признаков) ... 347

14.9.4. Решение задачи исследования моделируемой предметной области путем исследования ее модели (автоматизированный SWOT-анализ изображений) ... 350

14.9.5. Нелокальные нейроны классов ... 354

14.9.6. Ценность цветов для идентификации изображений ... 357

14.9.7. Степень детерминированности классов изображений цветами ... 358

14.10. Выводы ... 359

14.11. Возможные области применения и перспективы ... 360

Глава 15. Автоматизированный системно-когнитивный анализ текстов ... 363

15.1. Синтез семантических ядер научных специальностей ВАК РФ и автоматическая классификации статей по научным специальностям с применением АСК-анализа и интеллектуальной системы "Эйдос" ... 363

15.2. Формирование семантического ядра ветеринарии путем Автоматизированного системно-когнитивного анализа паспортов научных специальностей ВАК РФ и автоматическая классификация текстов по направлениям науки ... 364

15.3. Интеллектуальная привязка некорректных ссылок к литературным источникам в библиографических базах данных с применением АСК-анализа и системы "Эйдос" ... 365

15.4. Применение АСК-анализа и интеллектуальной системы "Эйдос" для решения в общем виде задачи идентификации литературных источников и авторов по стандартным, нестандартным и некорректным библиографическим описаниям ... 366

15.5. АСК-анализ проблематики статей Научного журнала КубГАУ в динамике ... 366

15.6. Атрибуция анонимных и псевдонимных текстов в системно-когнитивном анализе ... 367

15.7. Атрибуция текстов, как обобщенная задача идентификации и прогнозирования ... 367

15.8. Интеллектуальная датировка текста, определение авторства и жанра на примере русской литературы XIX и XX веков ... 367

15.9. Intellectual attribution of literary texts (finding the dates of the text, determining authorship and genre on the example of Russian literature of the XIX and XX centuries) ... 368

15.10. Выводы ... 368

Заключение ... 369

Литература ... 371

Литература к главе 1 ... 371

Литература к главе 2 ... 374

Литература к главе 3 ... 376

Литература к главе 4 ... 377

Литература к главе 5 ... 379

Литература к главе 6 ... 380

Литература к главе7 ... 382

Литература к главе 8 ... 384

Литература к главе 9 ... 385

Литература к главе 10 ... 389

Литература к главе 11 ... 390

Литература к главе 12 ... 392

Литература к разделам 13.1, 13.2 главы 13 ... 395

Литература к разделу 13.3 главы 13 ... 398

Литература к главе 14 ... 399

Литература к главе 15 ... 403

Предисловие

В 2014 г. вышла наша книга "Системная нечеткая интервальная математика" (Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с.). Название было выработано в процессе подготовки этой монографии. Так мы назвали центральное направление наших исследований. В настоящую книгу мы включили основные полученные после 2014 г. научные результаты по методам анализа данных, информации и знаний в системной нечеткой интервальной математике.

Научной общественности была представлена новая парадигма математических методов исследования. Речь шла о новой парадигме прикладной статистики, эконометрики, математической статистики, математических методов экономики, организационно-экономического моделирования в экономике и управления. Считаем необходимым при разработке организационно-экономического, математического и программного обеспечения для решения задач конкретной прикладной области, например, ракетно-космической отрасли, исходить из новой парадигмы математических методов исследования. Аналогичное требование предъявляем к преподаванию соответствующих дисциплин - при разработке учебных планов и рабочих программ необходимо исходить из новой парадигмы математических методов исследования. В главе 1 мы приводим базовую информацию о новой парадигме. Изложение посвящено в основном научной области (специальности) "Математические и инструментальные методы экономики", включающей организационно-экономическое и экономико-математическое моделирование, эконометрику и статистику, а также теорию принятия решений, системный анализ, кибернетику, исследование операций. Обсуждаем основные понятия. Рассказываем о ходе разработки новой парадигмы. Проводим развернутое сравнение старой и новой парадигм математических методов исследования. Даем информацию об учебной литературе, подготовленной в соответствии с новой парадигмой математических методов исследования.

Системная нечеткая интервальная математика тесно переплетена с статистикой нечисловых данных, выделенной как самостоятельная область прикладной статистики в 1979 г.. Первоначально для обозначения этой области математических методов экономики использовался термин "статистика объектов нечисловой природы". Наш базовый учебник называется "Нечисловая статистика". Статистика нечисловых данных - одна из четырех основных областей прикладной статистики (наряду со статистикой чисел, многомерным статистическим анализом, статистикой временных рядов и случайных процессов). Она делится на статистику в пространствах общей природы и разделы, посвященные конкретным типам нечисловых данных (статистика интервальных данных, статистика нечетких множеств, статистика бинарных отношений и др.). В настоящее время статистика в пространствах общей природы - центральная часть прикладной статистики, а включающая ее статистика нечисловых данных - основная область прикладной статистики. Это утверждение подтверждается, в частности, анализом публикаций в разделе "Математические методы исследования" журнала "Заводская лаборатория. Диагностика материалов" - основном месте публикаций отечественных исследований по прикладной статистике. Глава 2 посвящена анализу основных идей статистики нечисловых данных на фоне развития прикладной статистики с позиций новой парадигмы математических методов исследования. Описаны различные виды нечисловых данных. Проанализирован исторический путь статистической науки. Рассказано о развитии статистики нечисловых данных. Разобраны основные идеи статистики в пространствах общей природы: средние величины, законы больших чисел, экстремальные статистические задачи, непараметрические оценки плотности распределения вероятностей, методы классификации (диагностики и кластер-анализа), статистики интегрального типа. Кратко рассмотрены некоторые статистические методы анализа данных, лежащих в конкретных пространствах нечисловой природы: непараметрическая статистика (реальные распределения обычно существенно отличаются от нормальных), статистика нечетких множеств, теория экспертных оценок (медиана Кемени - это выборочное среднее экспертных упорядочений) и др. Обсуждаются некоторые нерешенные задачи статистики нечисловых данных.

Непараметрические оценки плотности распределения вероятностей в пространствах произвольной природы - один из основных инструментов нечисловой статистики. В главе 3 рассмотрены их частные случаи - ядерные оценки плотности в пространствах произвольной природы, гистограммные оценки и оценки типа Фикс-Ходжеса. Цель главы 3 - завершение цикла наших работ, посвященного математическому изучению асимптотических свойств различных видов непараметрических оценок плотности распределения вероятности в пространствах общей природы. Тем самым подводится математический фундамент под применения таких оценок в нечисловой статистике. Начинаем с рассмотрения среднего квадрата ошибки ядерной оценки плотности и - с целью максимизации порядка его убывания - выбор ядерной функции и последовательности показателей размытости. Основные введенные нами понятия - круговая функция распределения и круговая плотность. Порядок сходимости в общем случае тот же, что и при оценивании плотности числовой случайной величины, но основные условия наложены не на плотность случайной величины, а на круговую плотность. Далее рассматриваем другие виды непараметрических оценок плотности - гистограммные оценки и оценки типа Фикс-Ходжеса. Затем изучаем непараметрические оценки регрессии и их применение для решения задач дискриминантного анализа в пространствах общей природы.

В главе 4 рассмотрены основные идеи асимптотической математической статистики интервальных данных, в которой элементы выборки - не числа, а интервалы. Алгоритмы и выводы статистики интервальных данных принципиально отличаются от классических. Приведены результаты, связанные с основополагающими понятиями нотны и рационального объема выборки. Статистика интервальных данных является составной частью системной нечеткой интервальной математики.

Изучаемые в главе 5 коэффициенты корреляции и детерминации широко используются при статистическом анализе данных в рамках системной нечеткой интервальной математики. Согласно теории измерений линейный парный коэффициент корреляции Пирсона применим к переменным, измеренным в шкале интервалов. Его нельзя использовать при анализе порядковых данных. Непараметрические ранговые коэффициенты Спирмена и Кендалла оценивают связь порядковых переменных, Важно, что при проверке значимости отличия коэффициента корреляции от 0 критическое значение зависит от объема выборки. Поэтому использование т.н. "шкалы Чеддока" некорректно. При применении пассивного эксперимента коэффициенты корреляции можно обоснованно использовать для прогнозирования, но не для управления. Для получения предназначенных для управления вероятностно-статистических моделей необходим активный эксперимент. Влияние выбросов на коэффициент корреляции Пирсона весьма велико. При увеличении числа проанализированных наборов предикторов заметно растет максимальный из соответствующих коэффициентов корреляции - показателей качества приближения (эффект "вздувания" коэффициента корреляции). Рассмотрены основные модели регрессионного анализа. Выделены модели метода наименьших квадратов с детерминированной независимой переменной. Рассматриваем произвольное распределение отклонений, при этом для получения предельных распределений оценок параметров и регрессионной зависимости предполагаем выполнение условий центральной предельной теоремы. Второй тип моделей основан на выборке случайных векторов. Зависимость является непараметрической, распределение двумерного вектора - произвольным. Об оценке дисперсии независимой переменной можно говорить только в модели на основе выборки случайных векторов, равно как и о коэффициенте детерминации как критерии качества модели. Обсуждается сглаживание временных рядов. Рассмотрены методы восстановления зависимостей в пространствах общей природы. Показано, что предельное распределение естественной оценки размерности модели является геометрическим, а построение информативного подмножества признаков наталкивается на эффект "вздувания коэффициентов корреляции". Обсуждаются различные подходы к регрессионному анализ интервальных данных. Анализ многообразия моделей регрессионного анализа приводит к выводу, что не существует единой "стандартной модели"
Вероятностно-статистические модели данных - основа методов прикладной статистики. При анализе статистических данных часто необходимо оценивать две составляющие вероятностно-статистических моделей - структуру моделей и их параметры. Методы расчета состоятельных оценок параметров хорошо известны (например, применяют методы одношаговых оценок, которые пришли на смену методам максимального правдоподобия). Структура модели обычно выбирается исследователем (можно сказать, что используются экспертные методы). Некоторые параметры структуры можно оценивать с помощью математико-статистических методов. Например, степень многочлена в регрессионной зависимости или число слагаемых в модели смеси распределений, используемой для классификации. Для подобных параметров модели используется общий термин - размерность вероятностно-статистической модели. Более общая составляющая модели - информативное подмножество признаков. В главе 6 рассмотрено асимптотическое поведение оценок размерностей ряда моделей. Изучено асимптотическое поведение ряда оценок степени полинома при восстановлении зависимости. Получены состоятельные оценки размерности и структуры модели в регрессии. Рассмотрены подходы к оцениванию числа элементов смеси в задачах классификации. Обсуждаются оценки размерности модели в факторном анализе и многомерном шкалировании. С целью обоснования последовательного выполнения этапов статистического анализа данных анализируются проблемы "стыковки" алгоритмов классификации и регрессии. Полезными оказываются оптимизационные формулировки ряда задач прикладной статистики. Основные результаты касаются состоятельности оценок. Краткие формулировки ряда теорем содержатся в ранее вышедших публикациях. Проблема оценивания размерности вероятностно-статистической модели как самостоятельное направление прикладной статистики впервые рассмотрена здесь. Впервые публикуются доказательства включенных в настоящую главу теорем. Эти теоремы и подробные доказательства и являются основными научными результатами работы.

Назрела необходимость навести порядок в математических методах классификации. Это повысит их роль в решении прикладных задач, в частности, при диагностике материалов. Прежде всего следует выработать требования, которым должны удовлетворять методы классификации. Первоначальная формулировка таких требований - основное содержание главы 7. Математические методы классификации мы рассматриваем как часть методов прикладной статистики. Обсуждаем естественные требования к рассматриваемым методам анализа данных и представлению результатов расчетов, вытекающие из накопленных отечественной вероятностно-статистической научной школой достижений и идей. Даются конкретные рекомендации по ряду вопросов, а также критика отдельных ошибок, встречающихся в научных публикациях. В частности, методы анализа данных должны быть инвариантны относительно допустимых преобразований шкал, в которых измерены данные, т.е. методы должны быть адекватны в смысле теории измерений. Основой конкретного статистического метода анализа данных всегда является та или иная вероятностная модель. Она должна быть явно описана, ее предпосылки обоснованы - либо из теоретических соображений, либо экспериментально. Методы обработки данных, предназначенные для использования в реальных задачах, должны быть исследованы на устойчивость относительно допустимых отклонений исходных данных и предпосылок модели. Должна указываться точность решений, даваемых с помощью используемого метода. При публикации результатов статистического анализа реальных данных необходимо указывать их точность (приводить доверительные интервалы). В качестве оценки прогностической силы алгоритма классификации вместо доли правильных прогнозов рекомендуется использовать прогностическую силу. Математические методы исследования делятся на "разведочный анализ" и "доказательную статистику". Специфические требования к методам обработки данных возникают в связи с их "стыковкой" при последовательном выполнении. Обсуждаются границы применимости вероятностно-статистических методов. Рассматриваются также конкретные постановки задач классификации и типовые ошибки при применении различных методов их решения.

К инструментальным методам экономики относится метод Монте-Карло (синоним - метод статистических испытаний). Он широко используется при разработке, изучении и применении математических методов исследования в эконометрике, прикладной статистике, организационно-экономическом моделировании, при разработке и принятии управленческих решений, является основой имитационного моделирования. Разработанная нами новая парадигма математических методов исследования (см. главу 1) опирается на применение метода Монте-Карло. В математической статистике для многих метолов анализа данных получены предельные теоремы об асимптотическом поведении рассматриваемых величин при безграничном росте объемов выборок. Следующий шаг - изучение свойств этих величин при конечных объемах выборок. Для такого изучения с успехом применяют метод Монте-Карло. В главе 8 этот метод применяем для изучения свойств статистических критериев проверки однородности двух независимых выборок. Рассмотрены наиболее используемые при анализе реальных данных критерии - Крамера-Уэлча (совпадающий при равенстве объемов выборок с критерием Стьюдента); Лорда, Вилкоксона (Манна-Уитни), Вольфовица, Ван-дер-Вардена, Смирнова, типа омега-квадрат (Лемана-Розенблатта). Метод Монте-Карло позволяет оценить скорости сходимости распределений статистик критериев к пределам, сравнить свойства критериев при конечных объемах выборок. Для применения метода Монте-Карло необходимо выбрать функции распределения элементов двух выборок. Для этого в главе 8 использованы нормальные распределения и распределения Вейбулла - Гнеденко. Получена рекомендация: для проверки гипотезы совпадения функций распределения двух выборок целесообразно использовать критерий Лемана - Розенблатта типа омега-квадрат. Если есть основания предполагать, что распределения отличаются в основном сдвигом, то можно использовать также критерии Вилкоксона и Ван-дер-Вардена. Однако даже в этом случае критерий типа омега-квадрат может оказаться более мощным. В общем случае, кроме критерия Лемана - Розенблатта, допустимо применение критерия Смирнова, хотя для этого критерия реальный уровень значимости может значительно отличаться от номинального. Оценены частоты расхождений статистических выводов по разным критериям.

В современных условиях эконометрика как научная, практическая и учебная дисциплина становится всё более востребованной. Современная эконометрика - неотъемлемая составляющая научного обеспечения искусственного интеллекта и цифровой экономики. Методы эконометрики составляют значительную часть инструментов контроллинга. При ее преподавании весьма важно преодолеть оковы устаревших взглядов ХХ в., излагая современную эконометрику. Полезным является опыт двадцатилетней реализации авторской программы по эконометрике на факультете "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана. Основные составляющие современной эконометрики представлены в разработанном нами учебном курсе, которому и посвящена Глава 9. В ядро современной эконометрики включаем следующие базовые разделы: выборочные исследования; метод наименьших квадратов; эконометрический анализ инфляции; методы экспертных оценок; теория измерений и средние величины; введение в теорию риска; основы статистики нечисловых данных; непосредственный анализ статистических данных; статистический контроль; эконометрический анализ связанных выборок; основы теории нечетких множеств; элементы статистики интервальных данных; основы теории классификации; элементы теории рейтингов; эконометрика как научная дисциплина. Приведен перечень контрольных работ и формулировки домашних заданий. Обширный список литературных источников показывает, что авторский курс эконометрики в соответствии с принципом "образование - через науку" основан на недавних научных исследованиях, многие из которых опубликованы в "Научном журнале КубГАУ". Представленный в главе 9 курс разработан в соответствии с положениями отечественной научной школы в области эконометрики на основе современной парадигмы организационно-экономического моделирования, эконометрики и статистики. Основные составляющие современной эконометрики представлены в разработанном нами учебном курсе. Целесообразно именно его преподавать во многих университетах и вузах другого профиля, оставив в прошлом устаревшие учебники, в которых .из всех базовых тем современной эконометрики рассматривается лишь одна - метод наименьших квадратов.

Как показано в главе 10, системная нечеткая интервальная математика - основа математики XXI в. Определения математики как науки менялись со временем. В XIX в. ее определяли как науку о числах и фигурах (телах). В XXI в. математика - наука о формальных структурах. Следовательно, ее нельзя относить к естественным наукам. Математика изучает мысленные конструкции. В практике математических исследований аксиоматические теории - это, как правило, недостижимый идеал. Есть два направления деятельности математиков. Исследования в первом из них нацелены на построение и изучение моделей реальности, на получение научных результатов, которые - прямо или опосредованно - позволяют решать практические задачи. Представители второго направления занимаются решением конкретных трудных задач. Примеры - "великая теорема Ферма", задача пяти красок и т.п. Именно они готовят новых математиков, руководят профессиональными объединениями. В результате первое направление оказывается ущемленным. С точки зрения представителей первого направления наиболее важные области математики - это математический анализ, алгебра (линейная, высшая и др.) и геометрия (многомерная, начертательная, топология и др.). Для решения прикладных задач в ХХ в. наиболее важными оказались теория вероятностей и математическая статистика, теория оптимизации, дифференциальные и разностные уравнения. Начиная со второй половины ХХ в. появились новые области математики - статистика нечисловых данных, теория нечетких множеств, автоматизированный системно-когнитивный анализ, интервальная математика. Объединяющую их системную нечеткую интервальную математику рассматриваем в главе 10 как основу математики XXI века. Основная часть областей математики, разработанных представителями второго направления, в применении к решению прикладных задач оказалась, увы, бесплодной. Необходимо различать математические, прагматические и компьютерные числа. Разработан ряд подходов к моделированию связей математических и прагматических чисел - на основе группировки, интервального анализа, нечетких множеств, автоматизированного системно-когнитивного анализа. В конце главы 10 кратко рассказано о многообразии литературных источников по тематике этой главы.

В 2014 г. вышла монография авторов "Системная нечеткая интервальная математика" (Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с.). Во 2-ю часть настоящей монографии вошли основные полученные после 2014 года результаты развития автоматизированного системно-когнитивного анализа (АСК-анализ) и его программного инструментария - интеллектуальной системы "Эйдос". Это развитие касается, прежде всего, сценарного и спектрального АСК-анализа, а также применения АСК-анализа для интеллектуального анализа текстов.

Авторы считают, что АСК-анализ является одним из вариантов практической реализации системной нечеткой интервальной математики.

Во 2-й части рассматриваются соотношение смыслового содержания понятий "данные", "информация" и "знания", а также и теоретические и математические основы базового, сценарного, спектрального и текстового автоматизированного системно-когнитивного анализа (АСК-анализ).
Приводятся детальные численные примеры применения сценарного и спектрального АСК-анализа для прогнозирования на финансовых рынках и анализа изображений.

Сценарный АСК-анализ развит на основе одного предложенного автором частного случая теоремы А.Н. Колмогорова (1957). По своей сути замечательная теорема А.Н. Колмогорова (1957) (точнее этот ее частный случай), является теоретической основой всей математической теории разложения функций в ряды, т.е. так называемой теории рядов.
В математике разработано много различных конкретных вариантов разложений функций в ряды.

Однако, к сожалению, определение вида базисных функций и весовых коэффициентов для данной конкретной функции представляет собой математическую проблему, для которой пока не найдено общего математически строго решения.

При этом для частных случаев, т.е. конкретных видов базисных функций, таких решений найдено довольно много.

В данной работе предлагается рассматривать математическую модель АСК-анализа как вариант общего и универсального практического решения проблемы разработки базисных функций и весовых коэффициентов для разложения в ряд по ним произвольной функции состояния идентифицируемого объекта. Прослеживается сопоставление смысла понятий АСК-анализа и теоремы А.Н.Колмогорова.

Приводятся численные примеры технического, фундаментального и техно-фундаментального сценарного АСК-анализа.

В этих численных примерах на основе анализа ретроспективных исходных данных выявляются фактически наблюдавшиеся прошлые и будущие сценарии развития событий.

Путем их обобщения формируются образы будущих сценариев развития событий, которые рассматриваются как базисные функции классов.

Будущие сценарии обуславливаются прошлыми сценариями развития событий (значениями факторов).

При прогнозировании текущая ситуация сравнивается с этими обобщенными образами и разлагается в ряд по ним (прямое преобразование, объектный анализ).

Средневзвешенный прогноз формируется путем обратного преобразования образов классов с их весами, т.е. как их взвешенная суперпозиция.

При этом в качестве базисных функций используются обобщенные образы прогнозируемых сценариев того что будет и того что не будет с их весами, в качестве которых используется достоверность прогноза
Автоматизированный системно-когнитивный анализ (АСК-анализ) изображений обеспечивает автоматическое выявление признаков конкретных изображений из цветов пикселей и контуров изображений, синтез обобщенных образов изображений (классов), выявление наиболее характерных и нехарактерных для классов признаков изображений, определение ценности признаков изображений для их различения, удаление из модели малоценных признаков (абстрагирование), решение задач количественного сравнения конкретных изображений с обобщенными образами классов и обобщенных образов классов друг с другом, а также задачи исследования моделируемой предметной области путем исследования ее модели.

В данной работе рассматриваются новые возможности АСК-анализа и реализующей его интеллектуальной системы "Эйдос", обеспечивающие выявление признаков изображений путем их спектрального анализа, формирования обобщенных спектров классов, решение задач сравнения изображений конкретных объектов с классами и классов друг с другом по их спектрам.

Впервые стало возможным формировать обобщенные спектры классов с весами цветов по степени их характерности и не характерности для классов, причем это не интенсивность цвета в спектре, а количество информации в цвете о принадлежности объекта с этим цветом к данному классу.
По сути, речь идет об обобщении спектрального анализа путем применении интеллектуальных когнитивных технологий и теории информации в спектральном анализе.

Во-первых, все говорят о том, что в спектральных линиях содержится информация о том, какой элемент или вещество входят в состав объекта, но никто не удосужился посчитать какое же это конкретно количество этой информации, а затем использовать его для определения состава объекта методы распознавания образов, основанные на использовании этой информации.

Во-вторых, спектральный анализ традиционно используется для определения элементарного и молекулярного состава объекта, а мы предлагаем использовать его не только для этого, но и для идентификации любых изображений. Приводится численный пример.

Применение АСК-анализа для интеллектуального анализа текстов позволяет решать следующие задачи:

- формировать обобщенные лингвистические образы классов (семантические ядра) на основе фрагментов или примеров относящихся к ним текстов на любом языке;

- количественно сравнивать лингвистический образ конкретного человека, или описание объекта, процесса с обобщенными лингвистическими образами групп (классов);

- сравнивать обобщенные лингвистические образы классов друг с другом и создавать их кластеры и конструкты;

- исследовать моделируемую предметную область путем исследования ее лингвистической системно-когнитивной модели;

- проводить интеллектуальную атрибуцию текстов, т.е. определять вероятное авторство анонимных и псевдонимных текстов, датировку, жанр и смысловую направленность содержания текстов;

- все это можно делать для любого естественного или искусственного языка или системы кодирования.

Ссылки на работы второго из авторов по текстовому АСК-анализу размещены здесь: http://lc.kubagro.ru/aidos/Works_on_ASK ... _texts.htm.

Авторы:

Орлов Александр Иванович, профессор, доктор экономических наук, доктор технических наук, кандидат физико-математических наук,

https://orlovs.pp.ru/

Луценко Евгений Вениаминович, профессор, доктор экономических наук, кандидат технических наук,

http://lc.kubagro.ru/

https://www.researchgate.net/profile/Eugene-Lutsenko

Заключение

Включенные в настоящую книгу научные результаты наглядно демонстрируют большое теоретическое и прикладное значение идей и подходов системной нечеткой интервальной математики. Эта новая область теоретической и прикладной математики позволяет успешно решать задачи различных предметных областей - экономики (прежде всего цифровой), искусственного интеллекта, управления (менеджмента), техники и технологий, кибернетики, информатики, химии, биологии, социологии, медицины, психологии, истории и др., практически всех предметных областей. Так, организационно-экономическое, математическое и программное обеспечение контроллинга, инноваций и менеджмента основано на идеях, подходах и результатах системной нечеткой интервальной математики.

Констатируем, что точки роста современной математики в большинстве случаев относятся именно к системной нечеткой интервальной математике, на ее основе разработана новая парадигма математических методов исследования. Поэтому мы обоснованно полагаем, что системная нечеткая интервальная математика - основа математики XXI века.

Основные научные результаты системной нечеткой интервальной математики должны быть включены в учебные планы обучения бакалавров, магистров, аспирантов, слушателей бизнес-школ, систем переподготовки и других образовательных структур. В своих учебниках мы демонстрируем, как это можно сделать.

В настоящую книгу включена лишь наиболее принципиально важная и актуальная часть научных результатов авторов в области системной нечеткой интервальной математики, полученных после выхода в 2014 г. нашей предыдущей книги по этой тематике.

Желающим расширить свое знакомство с этой быстро растущей областью современной математики рекомендуем обратиться к публикациям авторов.

С ними можно ознакомиться в Российском индексе научного цитирования (РИНЦ):

- https://www.elibrary.ru/author_profile.asp?id=1844;

- https://www.elibrary.ru/author_profile.asp?id=123162;

в "Политематическом сетевом электронном научном журнале Кубанского государственного аграрного университета (Научном журнале КубГАУ)":

- http://ej.kubagro.ru/a/viewaut.asp?id=2744;

- http://ej.kubagro.ru/a/viewaut.asp?id=11,

а также на сайтах авторов:

- https://orlovs.pp.ru/ (https://orlovs.pp.ru/work/)

- http://lc.kubagro.ru/ (http://lc.kubagro.ru/aidos/_Aidos-X.htm)

и на страничках авторов в РесечГейт:

- https://www.researchgate.net/profile/Alexandr-Orlov-6;

- https://www.researchgate.net/profile/Eugene-Lutsenko.

Многие (практически все) разделы системной нечеткой интервальной математики заслуживают дальнейшего развития и практического применения. Приглашаем исследователей различных специальностей активно участвовать в этой работе.

Авторы

20 января 2022 г.

Москва-Краснодар

Публикация:

1214. Орлов А.И., Луценко Е.В. Анализ данных, информации и знаний в системной нечеткой интервальной математике: научная монография. - Краснодар: КубГАУ, 2022. - 405 с.

https://www.elibrary.ru/item.asp?id=48067531

https://www.researchgate.net/publication/357957630

*   *   *   *   *   *   *

На сайте "Высокие статистические технологии", расположенном по адресу http://orlovs.pp.ru, представлены:

На сайте есть форум, в котором вы можете задать вопросы профессору А.И.Орлову и получить на них ответ.

*   *   *   *   *   *   *

Удачи вам и счастья!


В избранное