Обзор
Использование нейронных сетей в финансах и
маркетинге
ОБЗОР N7
Добрый день!
Сегодня нам предстоит
поговорить о решении классической задачи
"Транспортный агент". Точнее, мы поговорим о
том, как выбрать наилучший аэропорт, который
подходит в большей степени под специфику работы
нашей транспортной компании.
Предположим, что мы - это те,
кто помогает людям доставить или получить груз,
короче говоря, мы занимаемся консолидацией
грузов а ля холодильное оборудование, равно как и
доставкой почтовых отправлений (торговля по
каталогам и книготорговля).
У нас имеется дилемма: какой
аэропорт нам подойдет исходя из его
специализации, удаленности от наших складов и
т.п. и т.д.
В качестве примера мы
возьмем пресловутых американцев с их
аэропортами (к сожалению, Российские авиалинии
не предоставили мне свою базу данных). База
данных содержит следующие цифири: планируемое
количество полетов и количество реализованных;
перевезенные пассажиры; перевезенные тонны
груза и почты; удаленность от нашей
географической точки и т.д.
Можно решать задачу по
фильтрации многомерных данных по 135 аэропортам.
Мы решили сэкономить время и свои мозги - мы
пользуемся нейропакетом для кластеризации,
классификации, . Viscovery, SOMineLite (кстати, кое-кто
считает, что у меня есть группа людей, которые
рисуют мультики - не правда - кодировку цифровых
данных выполняет нейропакет автоматически - см.
Матлаб туул бокс и пр. модули Кохонена).
Итак, берем экселевский
файл, как он есть из интернета (или от Аэрофлота)
грузим в нейропакет и получаем обобщенную
картинку классификации всех 135 аэропортов по их
признакам - Рис.1
Рисунок 1. Кластеры со
всеми аэропортами, имеющимися в выборке.
Нам предстоит оперативно
принять решение - какой аэропорт нам подходит (а
можно и сказать так: "какой склад нам
предпочтительней для нашего бизнеса торговли
медикаментами или продуктами питания"?).
Наиболее важный для нас в данный момент - это
критерий территориальной удаленности от нашего
офиса. Следовательно, смотрим атлас компонент (он
достаточно велик и я демонстрирую только часть
его) - Рис 2.
Рисунок 2. Атлас
компонент 135 аэропортов Америки.
Интересующая нас компонента
- эта удаленность терминала от нашего склада -
правый верхний угол. Посреди картинки мы видим
глубокую дыру в земной поверхности: красные горы,
между ними зеленая долина, а в ее центре глубокое
синее море. Вот это синее море и обозначает кучку
аэропортов, которые имеют минимальное
расстояние до нас - остальные характеристики
пока мы не рассматриваем.
Задача 2 - отфильтровать
это синее море из атласа компонент. Фильтруем
путем вызова функции Filter в нейропакете - получили
новый урезанный экселевский файл, содержащий
только искомые аэропорты.
Тренируем новую нейросеть
на основе урезанного файла и получаем картинку
3.
Рисунок 3. Кластеры,
содержащие аэропорты, имеющие минимальное
удаление от нашего склада.
Атлас компонент этих аэропортов
представлен на Рисунке 4.
Рисунок 4. Атлас
компонент аэропортов, имеющих минимальное
удаление от нашего склада.
Новая нейросеть выдала нам
данные по 38 аэропортам. Верхний ряд, центральный
рисунок - компонента, отвечающая за расстояние.
Синий сектор этой компоненты - нам по прежнему
наиболее интересен, в силу того, что исходя из
шкалы кодировки цветом (ниже каждой компоненты
имеется такая, для удобства ассоциирования
цветовой гаммы и реальных цифр). По шкале видно,
что расстояние достигает 150 километров. Это
слишком много - наша Газель спустит все наши
накопления, если каждый день будет делать две
ходки до аэропорта и обратно. Логичным кажется
повторить фильтрацию синего сектора и уже из
него отобрать аэропорт, который будет подходить
нам как по удаленности, так и по всем прочим
характеристикам. Что и было сделано. Смотрим на
Рисунок 5.
Рисунок 5. Кластеры,
содержащие информацию по 15 аэропортам.
Рисунок 5 - это укрупненная
карта 16 аэропортов, из которых нам предстоит
выбрать целевой аэропорт, удовлетворяющий нас не
только по удаленности, но и по всем прочим
характеристикам. Атлас компонент этих 15
аэропортов представлен на рисунке 6 (урезанный
атлас - слишком много получилось бы мелких
картинок).
Рисунок 6. 15 аэропортов
как компоненты, из которых предстоит выбрать
стратегического партнера.
Приступаем к детальному
изучению нашей второй выборки. Нижний ряд, центр -
красные горы (максимум характеристики -
расстояние) - мы отбрасываем, т.к. минимальное
расстояние для нас все же предпочтительно. Во
всех прочих компонентах максимумы величин
сосредоточены в левых нижних углах - это нам
повезло - убиваем десяток зайцев одни выстрелом.
В ущерб минимальному
расстоянию (синие моря на компоненте в центре
нижнего ряда), мы предпочитаем аэропорт Канзас в
левом нижнем углу каждой карты компонент - он нам
подходит на все случаи жизни (можно было бы
выбрать и аэропорт Индианаполиса, т.к. в
последней выборке на его долю приходится
максимальное количество тонн, перевезенного
груза).
Пожалуй, и все - реально за 15
минут мы приняли эпохальное решение - выбрали
стратегического партнера - без учета стоимости
услуг. Можно было бы и приоритетным направлением
фильтрации выбрать количество перевозимой
почты, если мы торгуем книгами, или наличие малой
авиации - если мы возим врачей на стойбище к
чукчам. Подход ясен, оперативен и, самое главное,
точен.
Для вновь пришедших -
государственный кадастр, маркетинговые
агентства, аспиранты - шлите мне зазипованные
файлы с разбиением данных по принципу - одна
компонента - один столбец, содержащий как
реальные количественные величины, так и 0 или 1,
если требуется разделить категории или понятия.
Буду писать на заданную тему. Математика, которая
используется - см. http://www.com2com.ru/dav
или просто пишите somine@mail.ru
Александру Горбунову. Наше предприятие, точнее
мероприятие не коммерческое, желающие из Москвы
могут приехать ко мне и в гости - рад буду
поговорить за жизнь.