Пушкарев
С.В. Простейшая формула сходства сообществ. = Королёв, 2010\12\8,,,2011\2\22,
12(25)К
( часть 1 из 2 )
Предисловие
Недавно у меня вышла короткая статья в материалах совещания. Как оказалось,
оргкомитет и/или редакция сильно изменил исходное оформление рукописи. В
результате чего исчезли многие кавычки ( т.е., меня могут обвинить в плагиате
:-( ) , некоторые ссылки стали неправильными, пропали более дробные указания
внутри ссылок ( на главы и страницы ) . Исправлением этого непорядка служит
данная публикация.
Здесь я даю сначала опубликованный в материалах совещания , потом исходный
вариант. Первый – для ссылок, второй – для работы.
Текст опубликованной статьи извлечен из PDF’а ( pdf
-> doc ) , лежащего
на сайте Ботанического института ( смотри ссылку ниже ), с помощью программы Nitro
PDF Professional ( http://www.pdftoword.com/ ) . Отличий от исходного pdf’а я не заметил. ( Отличия
, надо полагать , появятся при преобразовании doc’а в гипертекст при отправке выпуска.
:-( :-) )
Любопытно, что при попытках снять из паутины штуки три иных конвертеров ( PDFCreator , ... ) получил штук
7 файлов , зараженных тремя троянами. DrWebих отправляет в карантин, откуда
нужно стереть.
Вот ссылка на публикацию в материалах совещания. :
Пушкарев С.В. Простейшая формула
сходства сообществ // Отечественная геоботаника: основные вехи и перспективы:
Мат. Всерос. конф. (СПб, 20–24 сентября 2011 г.). Том 1: Разнообразие типов
растительных сообществ и вопросы их охраны. География и картография
растительности. История и перспективы геоботанических исследований. - СПб,
2011. 462 с. , с207,,209 // http://www.binran.ru/geobot2011/materials/diversity.pdf ,,
А вот – сама публикация. :
ПРОСТЕЙШАЯ
ФОРМУЛА СХОДСТВА
СООБЩЕСТВ С. В. Пушкарев
Институт географии РАН
119017, Россия, Москва,
Старомонетный пер., 29. E-mail: push15@ya.ru,
push@nightmail.ru
Ключевые слова: индекс сходства, индекс Рассела–Рао,
индекс
Чекановского–Сёренсена , индекс Жак- кара
, коэффициент
сходства.
Индексов оценки сходства
сообществ (выборок, коллекций,
списков, территорий) по качественным
данным («присутствие»/«отсутствие») создано около двух
десятков (Песенко,
1982). Если Бейли в 1970 г. насчитывал их около 20, то
в настоящее время их стало бесконечно много,
так как
сформулированы
не- сколько правил, по которым
«изобретаются» коэффициенты
(Семкин, 1973; Андреев, 1970).
Наиболее известными
из них являются индексы (коэффициенты)
Чекановского–Сёренсена
и Жаккара. Существует задача
выбора наилучшего индекса.
Однако и на этом пути встречаются
многие трудности, связанныесчрезмернымобилиемкоэффициентов,используемых,какпринятосчитать,дляоднихитех же
целей (Бейли, 1970; Василевич, 1969; Sneath, Sokal, 1973). До сих пор в биологической литературе не прекращаются споры о том,
какой
из двух самых простых коэффициентов,
Жаккара
или Чекановского–Сё- ренсена,следуетприменятьдляхарактеристикисходства(Макфедьен,1965;Константинов,1969;Андреев,
1970;
Чернов, 1971).
Сравнению и критике
разных индексов посвящен
ряд работ (Чернов, 1975; Шмидт, 1984). Критику критики дал Песенко (1982). Его вывод таков: «следует признать
всех их вполне
законными и состоятель- ными» (с. 138). И в качестве
собственного критерия он предлагает
простоту:
«При прочих равных усло- вияхосновнымкритериемвыбораиндексадолжнабытьегопростота»(тамже).Простотуонпонимает
как близость графика
того
или иного индекса
на шкале «относительной разницы между числом видов в списках» или «относительного
числа общих видов в сравниваемых
списках» к прямой линии, — т. е. наи- меньшую искривлённость
графика.
Я же предлагаю под
«простотой индекса» понимать простоту его
формулы. Вероятно, в общем
случае здесь будет несколько оценок для каждой формулы, или своя оценка для каждого варианта формулы. Так,
априори, сложность формулы
индекса Чекановского–Сёренсена,
понимаемой как отношение числа
общих видов к среднему от числа видов в каждом из двух списков,
выглядит меньшей, чем сложность
непосред- ственно используемой для расчетов формулы
того
же индекса (см. ниже). Ниже
эта простота оценивается неявно (на уровне очевидности),
но можно это сделать и формально: через
сети Иванищева («алгоритми-
ческие» — Иванищев, 1984).
В индексах
может
учитываться или
не учитываться количество
«со-отсутствий»
(«число отрицательных совпадений»). Относительно того, помогает
или мешает присутствие
этого
числа в формуле отразить
сход- ствосообществ,единогомнениянет(Песенко,1982).Какправило,этотпараметрнеиспользуют.Таковы, вчастности,упомянутыеиндексыЧекановского–СёренсенаиЖаккара.Вобозначениях
a—присутствие,
присутствие (т. е.
число видов, присутствующих
в первом и присутствующих во
втором
сообществах
), b — присутствие,отсутствие,с—отсутствие,присутствие,d—отсутствие,отсутствие,первыйвыглядиткак
Для поставленной
задачи упрощения имеет значение то,
что присутствие этого
числа в той сумме слу- чаев, относительно которой как
знаменателя производится нормирование, превращает «выборку»
в «гене- ральную совокупность».
Таков
индекс Рассела–Рао a / (a + b + c + d) (Russel, Rao, 1940), первоначально предложенныйдляизмеренийсопряженностимеждувидамивихработепоэкологиикомаровродаAnoph-
eles в штате Мадрас (Индия). Знаменатель
этого
индекса представляет
собой число видов во всей
серии из М анализируемых списков вместо
числа видов, входящих непосредственно
в два сравниваемых списка.
Если (гипотетически) предположить, что
в нашей серии имеются
списки для всех подобных
со- обществ, имеющихся на планете Земля, то числом
видов во всей серии будет просто число видов в роде Anopheles. Это
число можно рассматривать как
более или менее постоянную величину
(константу) в том
смысле, что это число теперь перестало
зависеть от действий эколога (биогеографа), а зависит только от
действий систематика
(открытие/закрытие, дробление/объединение видов). А это — относительно медлен- ный процесс. Строго говоря, он также зависит от эволюции: появление/вымирание видов. Но этот процесс
еще более медленен. В принципе, на эту
условную константу может
также
влиять хозяйственная деятель-
ность человека, как правило, в сторону уменьшения. Этот случай в рассматриваемом отношении
неясен: учитывать или нет такие исчезнувшие виды. Для хорошо изученных таксонов
кривая числа описанных ви- дов по годам — в процессе
выхода
на плато, хотя и осложнённом
разницей мнений разных систематиков
(Global…, 1992). Для таксонов верхнего уровня (класс, тип, царство) предполагаемая
таксономическая из- ученность (описанность, учтённость видов, отношение
числа описанных к числу предполагаемых
видов) составляет от 0.13..8.0 % (бактерии) до 82..90 % (хордовые) (Global…, 1995).
То, что
сравнение сообществ всегда производится
по целому таксону (или, возможно, группе
целых таксонов),будетвторымдопущением.Вслучаевыше—этород
Anopheles.Возможно,этонеявноеобще- принятое условие. По
крайней мере, во всех известных мне случаях оно соблюдается.
Предположим,
мы имеем два растительных сообщества,
сходство
которых
хотим
оценить по наличию тогоилииноговидахвоща(1родв1семействев1классе):1)Equisetumsylvaticumи2)E.sylvaticum,
E. pratense, E. palustre. Как можно
видеть, a = 1, b = 2, c = 0 . Параметром
d будет остаток от
общего числа видоввроде:около20(Жизньрастений,1978),«some15»(Global…,1992).Возьмёмменьшее.Тогдаd=
15 — 1 — 2 — 0 = 12 . Формула Рассела–Рао
здесь
даёт значение 1 / (1 + 2 + 0 + 12)
= 1 / 15 = ~ 0.067. Как можно
видеть, b, c и d по отдельности здесь не обязательны: будет даже
проще обойтись общим числом видов,
обычно обозначаемым как S. Формула при этом
будет
такой:
a / S . Индекс Жаккара
здесь
будет
ра- вен a / (a + b + c) = a / (S
— d) = 1 / (1 + 2 + 0) = 1 / 3 = ~ 0.33 .
Предположим
теперь, что вместо хвощей
у нас цветковые растения (не менее 240 000 видов (Жизнь растений, 1980)).
Оценки числа видов цветковых растений колеблются между 240 000 и 750 000, но боль- шинство ботаников
принимает число 250 000 за самое
точное (Global…1992). Индексы Рассела–Рао
и Жаккара будут,
соответственно, равны 1 / 250000 = 0.000004 и
1 / 3 = ~ 0.33. Видно, что помимо прочих
претензий к присутствию параметра d в формуле индекса (Песенко,
1982), можно добавить еще и огром- ное
падение разрешения индекса.
Таким образом, мы имеем противоречие: учет «со-отсутствий»
упрощает формулу, но снижает раз-
решениерезультата;неучет—усложняет,ноповышает.Типовым(компромиссным?)способомявляется
та или иная форма соотнесения с максимально возможным
значением. В данном случае это означает, что
нужно учесть все сообщества для данного таксона / набора таксонов, для всех этих сообществ посчитать сходство, из этих сходств взять наибольшее и принять его
за верхнюю границу. Решение
этой задачи, на- сколько
я могу судить, пока технически
возможно лишь для маловидовых узко распространённых групп.
Но если договориться,
что всякий раз в качестве основания в индексе Рассела–Рао будет именно число всех видов (или любых других подтаксонов)
рассматриваемого
таксона
или набора таксонов (первое мое
допущение — отличие того, что
предлагаю я, от предложенного Расселом и Рао), то для оценок внутри
данного надвидового
таксона
(второе мое
допущение), это общее число видов в
формуле и не нужно: те-
оретически возможны, но практически мне не известны
формулы, где бы были использованы совместно оценки сходства
по хвощам и по цветковым
растениям. Т. е., в одном
случае будет иметь место только на- бор оценок вида 1/15 , 2/15 , 1/15,
1/15, 3/15, …; в другом
— только 24/250000, 56/250000, 7/250000, … При этом
видно, что в каждом наборе знаменатели одинаковы. Это
позволяет их вынести за пределы формулы, либо явно указывая в тексте это
общее число видов, либо подразумевая, что
читатель
сам знает или спосо- бен
найти это число как условную константу для данного указанного таксона.
Если знак деления (дробь) понимать не как
арифметическое действие, а как предлог
из «в», «на» (при- мерно так, как в выражениях «километр в час», «грамм на миллилитр», …), то
формулу можно дать в виде Iп =a/S,гдееезначениямибудутвыражениявида1/15(одинизпятнадцати),24/250000(двадцатьчетыре из двухсот пятидесяти
тысяч)…
Если все
же понимать «арифметически», то
последнюю
формулу можно трактовать
как иную форму записи индекса
Рассела–Рао. Чтобы отличить, в этом случае можно конкретизировать
и обозначить то, что понимаетсяподобщимчисломвидов:всевидыданноготаксонавданнойвыборкесообществ(Sв,Sp,p—
«population», IRR= a/Sp)или все виды данного таксона на Земле (Sз, SE,E — «Earth» , Is= a/SE).
Можно (и, вероятно, лучше) также явно обозначать
и «неарифметичность»: Is= a«/»S, Is= a«/»SE.
ло общих
видов считать мерой абсолютного сходства, то
индексы общности, связанные с ней,
будут
изме- рять относительное сходство» (Песенко,
1982: 140).
Список литературы
Андреев В. Л.1979. Системы-классификации в биогеографии и систематике
(детерминистские методы) //Иерар- хическиеклассификационныепостроениявгеографическойэкологииисистематике.Владивосток.167с.––БейлиН.
1970. Математика
в биологии и медицине. М. –– Василевич
В. И. 1969. Статистические методы в геоботанике. Л. ––
Жизнь растений. Т. 4. Мхи. Плауны. Хвощи. Папоротники.
Голосеменные
растения. 1978. М.
447 с. –– Жизнь расте- ний. Т.
5. Ч. 1. Цветковые растения. 1980.
М. 430 с. –– Иванищев В. В. 1984. Математическое
описание алгоритмиче- ских сетей // Системы автоматизации в науке и производстве. М. 262 с. ––Константинов А. С. 1969. Использование теории множеств в биогеографическом и экологическом
анализе // Усп. совр. биол. Т. 67. Вып. 1. –– Макфедьен Э. Экология животных.
Цели и методы. 1965. М.
375 с. ––Песенко Ю. А. Принципыиметодыколичественногоанализав фаунистических исследованиях. 1982. М. 287 с. ––
Семкин
Б. И. 1973. Дескриптивные множества
и их приложения // Исследование систем. Т. 1. Анализ сложных систем. Владивосток. –– Чернов Ю. И. 1971. О некоторых
индексах, ис- пользуемых
при анализе структуры животного
населения суши // Зоол. Журн. Т.
50. Вып. 7. –– Чернов Ю. И. 1975. Основные синэкологические характеристики почвенных беспозвоночных
и методы их анализа // Методы почвенно- зоологическихисследований.М.277с.––ШмидтВ.М.1984.Математическиеметодывботанике.Л.288с.–– Global Biodiversity:StatusoftheEarth’sLivingResources.1992.Londonetal.585p.––GlobalBiodiversity Asessment.1995. Cambridge.
1140 p. –– Russel P. F.,
Rao T. R. 1940. On habitat and
association of species of anophelline larvae in South- EasternMadras//J.Malar.Inst.India. Vol.3.N2.P.153–178.––SneathP.H. A.,SokalR.R.1973.Numericaltaxonomy. Sant-Fransko.