Отправляет email-рассылки с помощью сервиса Sendsay

ПрЕдписная биогеография

  Все выпуски  

ПрЕдписная биогеография


Рассылка -- ‘ ПрЕдписная биогеография
Выпуск  -- # 21
Отправлен -- 2011'10'10



» « к//рпь|\|v|*///9\1\  » // 3108*5’’///намеченное бщ «

Пушкарев С.В. Простейшая формула сходства сообществ. = Королёв, 2010\12\8,,,2011\2\22, 12(25)К

 

( часть 2 из 2 )

Вот – авторский ( т.е., мой ) оригинал. :

Простейшая формула сходства сообществ

С. В. Пушкарев

Институт географии РАН

119017 Россия, г. Москва, Старомонетный пер., д.29, push15@ya.ru , push@nightmail.ru

Ключевые слова: индекс сходства , индекс Рассела-Рао , индекс Чекановского-Сёренсена , индекс Жаккара , коэффициент сходства

 

Индексов оценки сходства сообществ ( выборок, коллекций, списков, территорий )  по качественным данным ( «присутствие» / «отсутствие» ) создано около двух десятков ( см. Песенко"Принципы_гIX ). ( « Если Бейли в 1970 г. насчитывал их около 20, то в настоящее время их стало бесконечно много, так как сформулированы несколько правил, по которым “изобретаются” коэффициенты [ Семкин”Дескриптивные_  ]. » // Андреев”Системы-_с30  )

Наиболее известными из них являются индексы ( коэффициенты ) Чекановского-Сёренсена и Жаккара. Существует задача выбора наилучшего индекса. ( « Однако и на этом пути встречаются многие трудности, связанные с чрезмерным обилием коэффициентов, используемых, как принято считать, для одних и тех же целей [ Бейли"Математика_, Василевич"Статистические_ , Sneath,Sokal"Numerical_ ]. До сих пор в в биологической литературе не прекращаются споры о том, какой из двух самых простых коэффициентов, Жаккара или Чекановского-Сёренсена, следует применять для характеристики сходства [ Константинов"Использование_ , Макфедьен"Экология_ , Чернов"О_ ].» // Андреев”Системы-_с17 )

Сравнению и критике разных индексов посвящен ряд работ ( см., например, Чернов"Основные_с198,199; Шмидт"Математические_с234,,236 ). Критику критики дал Песенко  ( "Принципы_гIXп3 ). Его вывод – таков, что «следует признать всех их вполне законными и состоятельными» ( с138 ). И в качестве собственного критерия предлагает простоту ( «При прочих равных условиях основным критерием выбора индекса должна быть его простота.» // там же ). Простоту он понимает как близость графика того или иного индекса на шкале «относительной разницы между числом видов в списках» ( рис. 12 // с141 ) или «относительного числа общих видов в сравниваемых списках» ( рис. 13 // с141 ) к прямой  линии, - т.е., наименьшую искривлённость графика.

Я же предлагаю под «простотой индекса» понимать простоту его формулы. ( Вероятно, в общем случае здесь будет несколько оценок для каждой формулы, - или своя оценка для каждого варианта формулы. Так, априори, сложность формулы индекса Чекановского-Сёренсена, понимаемой как отношение числа общих видов к среднему от числа видов в каждом из двух списков, выглядит меньшей, чем сложность непосредственно используемой для рассчетов формулы  того же индекса, - смотри ниже. ) Ниже эта простота оценивается неявно ( на уровне очевидности ), но можно это сделать и формально: через сети Иванищева ( «алгоритмические» , - Иванищев"Математическое_ ).

В индексах может учитываться или не учитываться количество «со-отсутствий» ( «число отрицательных совпадений» ). Относительно того, помогает или мешает присутствие этого числа в формуле отразить сходство сообществ,  единого мнения нету ( см. Песенко"Принципы_гIXп4 ). Как правило, этот параметр не используют. Таковы, в частности, упомянутые индексы Чекановского-Сёренсена и Жаккара. В обозначениях «a -- присутствие, присутствие» ( т.е., число видов, присутствующих в первом и присутствующих во втором сообществах ), «b -- присутствие, отсутствие», «с -- отсутствие, присутствие», «d -- отсутствие, отсутствие», первый выглядит как « 2*а / ( a + b + 2*c) » , второй как « а / ( a + b + c) ». Как можно видеть, параметр «d» нигде не задействован.

Для поставленной задачи упрощения имеет значение то, что присутствие этого числа в той сумме случаев, относительно которой как знаменателя производится нормирование, превращает «выборку» в «генеральную совокупность». Таков индекс Рассела-Рао « a / ( a + b + c + d ) » ( Russel,Rao"On_ через Песенко»Принципы_с137 ), « первоначально предложенный для измерений сопряженности между видами в их работе по экологии комаров рода Anopheles в штате Мадрас (Индия) […]. Знаменатель этого индекса представляет собой число видов во всей серии из М анализируемых списков вместо числа видов, входящих непосредственно в два сравниваемых списка » ( там же ).

Если ( гипотетически ) предположить, что в нашей серии имеются списки для всех подобных сообществ, имеющихся на планете Земля, то « числом видов во всей серии » будет просто число видов в роде Anopheles. Это число можно рассматривать как более или менее постоянную величину ( константу ): в том смысле, что это число теперь перестало зависеть от действий эколога ( биогеографа ), а зависит только от действий систематика ( открытие / закрытие , дробление / объединение видов ). А это – относительно медленный процесс. ( Строго говоря, он также зависит от эволюции: появление / вымирание видов. Но этот процесс – еще более медленен. В принципе, на эту условную константу может также влиять хозяйственная деятельность человека: как правило, в сторону уменьшения. Этот случай в рассматриваемом отношении – неясен: учитывать или нет такие исчезнувшие виды. ) Для хорошо изученных таксонов кривая числа описанных видов по годам – «в процессе» выхода на плато, - хотя и «осложнённом» разницей мнений разных  систематиков ( см. Global__Status_ch4 ). Для таксонов верхнего уровня ( класс , тип , царство ) предполагаемая таксономическая изученность ( описанность, учтённость видов, - отношение числа описанных к числу предполагаемых, - «estimated», - видов ) составляет от 0.13..8.0% ( бактерии ) до 82..90% ( хордовые ) ( по Global__Asessment: p118 : Table 3.1-2 )

То, что сравнение сообществ всегда производится по целому таксону ( или, возможно,  группе целых таксонов ) будет вторым допущением. В случае выше это – род Anopheles. Возможно, это – неявное общепринятое условие. По крайней мере, во всех известных мне случаях оно соблюдается.

Предположим, мы имеем два растительных сообщества, сходство которых хотим оценить по  наличию того или иного вида хвоща ( -- 1 род в 1 семействе в 1 классе ): 1) { Equisetum sylvaticum } и 2) { E. sylvaticum , E. pratense , E. palustre }. Как можно видеть, a = 1, b = 2, c = 0 . Параметром «d» будет остаток от общего числа видов в роде ( «около 20» //  Жизнь__Мхи_с145 , «some 15» // Global__Status_p64 ). Возьмём меньшее. Тогда d = 15 - 1 - 2 - 0 =  12 . Формула Рассела-Рао здесь даёт значение 1 / ( 1 + 2 + 0 + 12 ) = 1 / 15 = ~ 0.067 . Как можно видеть, «b» , «c» и «d» по отдельности здесь не обязательны: будет даже проще обойтись общим числом видов, - обычно обозначаемым как «S». Формула при этом будет  такой : a / S . Индекс Жаккара здесь будет равен a / ( a + b + c ) = a / ( Sd ) = 1 / ( 1 + 2 + 0 ) = 1 / 3 = ~ 0.33 .

Предположим теперь, что вместо хвощей у нас – цветковые растения ( - «не менее 240 000 видов» // Жизнь__Цветковые_ч1 , «Оценки числа видов цветковых растений колеблются между 240 000 и 750 000, но большинство ботаников принимает число 250 000 за самое точное.» // Global__Status_p65, мой перевод ). Индексы Рассела-Рао и Жаккара будут, соответственно , равны 1 / 250000 = 0.000004 и 1 / 3 = ~ 0.33 . Видно, что помимо прочих претензий к присутствию параметра «d» в формуле индекса ( Песенко"Принципы_с143,144 ), можно добавить еще и огромное падение разрешения индекса.

Т.е., имеем противоречие: учет «со-отсутствий» упрощает формулу, но снижает разрешение результата; неучет – усложняет, но повышает. Типовым ( «компромиссным»? ) способом является та или иная форма соотнесения с максимально возможным значением. В данном случае это означает, что нужно учесть все сообщества для данного таксона / набора таксонов, для всех этих сообществ посчитать сходство, из этих сходств взять наибольшее и принять его за верхнюю границу. Решение этой задачи, насколько я могу судить, пока технически возможно лишь для мало-видовых узко распространённых групп.

Но если договориться, что всякий раз в качестве основания в индексе Рассела-Рао будет именно число всех видов ( или, вообще говоря, любых других под-таксонов ) рассматриваемого таксона или набора таксонов ( -- первое мое допущение, - отличие того, что предлагаю я, от предложенного Расселом и Рао (ДП)), то для оценок внутри данного надвидового таксона ( -- второе мое допущение ), это -- общее число видов в формуле, собственно говоря, и не нужно: теоретически возможны, но практически мне не известны формулы, где бы были использованы совместно, скажем, оценки сходства по хвощам и по цветковым растениям. Т.е., в одном случае будет иметь место только набор оценок вида 1/15 , 2/15 , 1/15, 1/15, 3/15, …; в другом только – 24/250000, 56/250000, 7/250000, … . При этом видно, что в каждом наборе знаменатели – одинаковы. Что позволяет их вынести за пределы формулы, - либо явно указывая в тексте это общее число видов, либо подразумевая, что читатель сам знает или способен найти это число, - как условную константу для данного указанного таксона.

Итого, получили, что простейший индекс сходства равен просто числу общих видов. Или Iп = a , Is = a ( «s» - «simplest» ).

Если знак деления ( «дробь» ) понимать не как арифметическое действие, а как предлог «из» , «в», «на» ( примерно так как в выражениях «километр в час», «грамм на миллилитр», … ), то формулу можно дать в виде  Iп = a/S . Где ее значениями будут выражения вида «1/15» ( «один из пятнадцати» ) , «24/250000» ( «двадцать четыре из двухсот пятидесяти тысяч» ) … .

Если все же понимать «арифметически», то последнюю формулу можно трактовать как иную форму записи индекса Рассела-Рао. Чтоб отличить, в этом случае можно конкретизировать и обозначить то, что понимается под общим числом видов: все виды данного таксона в данной выборке сообществ ( Sв , Sp , «p» - «population», IRR = a/Sp ) или все виды данного таксона на Земле ( Sз , SE , «E» - «Earth» , Is = a/SE ).

Можно ( и , вероятно, лучше ) также явно обозначать и «неарифметичность»: Is = a«/»S , Is = a«/»SE .

Как промежуточный показатель ( «сырьё» ) этот параметр отдельно упоминается у Песенко : «Если число общих видов считать мерой абсолютного сходства, то индексы общности, связанные с ней будут измерять относительное сходство […].» ( "Принципы_с140 ).

 

Список литературы

Андреев В.Л. Системы-классификации в биогеографии и систематике (детерминистские методы). // с3,,59 // Иерархические классификационные построения в географической экологии и систематике. – Влад-к, 1979, 167 с.

Бейли Н. Математика в биологии и медицине. - М: Мир, 1970

Василевич В.И. Статистические методы в геоботанике. - Л: Наука, 1969 

Жизнь растений. В 6-ти т. Т. 4 Мхи. Плауны. Хвощи. Папоротники. Голосеменные растения. - М: Просвещение, 1978, 447 с.

Жизнь растений. В 6-ти т. Т. 5. Ч. 1. Цветковые растения. - М: Просвещение, 1980, 430 с.

Иванищев В.В. Математическое описание алгоритмических сетей. // Системы автоматизации в науке и производстве. Сб. ст. - М: Наука, 1984, 262 с., с.23,,30

Константинов А.С. Использование теории множеств в биогеографическом и экологическом анализе.  // Усп. совр. биол., 1969, т. 67, вып. 1

Макфедьен Э. Экология животных. Цели и методы. − М: Мир, 1965, 375 с.

Песенко Ю.А. Принципы и методы количественного анализа в фаунистических исследованиях. - М: Наука, 1982, 287 с.

Семкин Б.И. Дескриптивные множества и их приложения // Исследование систем, т. 1. Анализ сложных систем. – Владивосток: ДВНЦ АН СССР, 1973

Чернов Ю.И. О некоторых индексах, используемых при анализе структуры животного населения суши.  // Зоол. журнал, 1971 т.50, вып. 7

Чернов Ю.И. Основные синэкологические характеристики почвенных беспозвоночных и методы их анализа.  // с160,,216 // Методы почвенно-зоологических исследований. - М: Наука, 1975, 277 с.

Шмидт В.М. Математические методы в ботанике. - Л: ЛГУ, 1984, 288 с.

Global Biodiversity: Status of the Earth's Living Resources. - London et al.: Chapman & Hall, 1992, 585 p. 

Global Biodiversity Asessment. - Cambridge: Cambridge Un'ty Press, 1995, 1140 p.

Russel P.F., Rao T.R. On habitat and association of species of anophelline larvae in South-Eastern Madras.  // J. Malar. Inst. India, 1940, vol. 3, N 2, p. 153-178 

Sneath P.H.A., Sokal R.R. Numerical taxonomy. - SF: Freeman, 1973   


В избранное