Пушкарев
С.В. Простейшая формула сходства сообществ. = Королёв, 2010\12\8,,,2011\2\22,
12(25)К
( часть 2 из 2 )
Вот – авторский ( т.е., мой ) оригинал.
:
Простейшая формула сходства сообществ
С. В.
Пушкарев
Институт географии
РАН
119017 Россия, г.
Москва, Старомонетный пер., д.29, push15@ya.ru , push@nightmail.ru
Ключевые слова: индекс сходства , индекс Рассела-Рао ,
индекс Чекановского-Сёренсена , индекс Жаккара , коэффициент сходства
Индексов
оценки сходства сообществ ( выборок, коллекций, списков, территорий )по качественным данным ( «присутствие» /
«отсутствие» ) создано около двух десятков ( см. Песенко"Принципы_гIX ). ( « Если Бейли в 1970 г. насчитывал их около
20, то в настоящее время их стало бесконечно много, так как сформулированы
несколько правил, по которым “изобретаются” коэффициенты [
Семкин”Дескриптивные_]. » //
Андреев”Системы-_с30)
Наиболее
известными из них являются индексы ( коэффициенты ) Чекановского-Сёренсена и
Жаккара. Существует задача выбора наилучшего индекса. ( « Однако и на этом пути
встречаются многие трудности, связанные с чрезмерным обилием коэффициентов,
используемых, как принято считать, для одних и тех же целей [
Бейли"Математика_, Василевич"Статистические_ ,
Sneath,Sokal"Numerical_ ]. До сих пор в в биологической литературе не
прекращаются споры о том, какой из двух самых простых коэффициентов, Жаккара
или Чекановского-Сёренсена, следует применять для характеристики сходства [
Константинов"Использование_ , Макфедьен"Экология_ , Чернов"О_
].» // Андреев”Системы-_с17 )
Сравнению и
критике разных индексов посвящен ряд работ ( см., например,
Чернов"Основные_с198,199; Шмидт"Математические_с234,,236 ). Критику
критики дал Песенко( "Принципы_гIXп3 ). Его вывод – таков,
что «следует признать всех их вполне законными
и состоятельными» ( с138 ). И в
качестве собственного критерия предлагает простоту ( «При прочих равных
условиях основным критерием выбора индекса должна быть его простота.» // там же
). Простоту он понимает как близость графика того или иного индекса на шкале
«относительной разницы между числом видов в списках» ( рис. 12 // с141 ) или
«относительного числа общих видов в сравниваемых списках» ( рис. 13 // с141 ) к
прямойлинии, - т.е., наименьшую
искривлённость графика.
Я же
предлагаю под «простотой индекса» понимать простоту его формулы. ( Вероятно, в
общем случае здесь будет несколько оценок для каждой формулы, - или своя оценка
для каждого варианта формулы. Так, априори, сложность формулы индекса
Чекановского-Сёренсена, понимаемой как отношение числа общих видов к среднему
от числа видов в каждом из двух списков, выглядит меньшей, чем сложность
непосредственно используемой для рассчетов формулытого же индекса, - смотри ниже. ) Ниже эта
простота оценивается неявно ( на уровне очевидности ), но можно это сделать и
формально: через сети Иванищева ( «алгоритмические» , -
Иванищев"Математическое_ ).
В индексах
может учитываться или не учитываться количество «со-отсутствий» ( «число
отрицательных совпадений» ). Относительно того, помогает или мешает присутствие
этого числа в формуле отразить сходство сообществ,единого мнения нету ( см.
Песенко"Принципы_гIXп4
). Как правило, этот параметр не используют. Таковы, в частности, упомянутые
индексы Чекановского-Сёренсена и Жаккара. В обозначениях «a --
присутствие, присутствие» ( т.е., число видов, присутствующих в первом и
присутствующих во втором сообществах ), «b -- присутствие,
отсутствие», «с -- отсутствие,
присутствие», «d -- отсутствие, отсутствие», первый
выглядит как « 2*а / ( a + b + 2*c) » ,
второй как « а / ( a + b + c) ». Как
можно видеть, параметр «d» нигде не
задействован.
Для
поставленной задачи упрощения имеет значение то, что присутствие этого числа в
той сумме случаев, относительно которой как знаменателя производится
нормирование, превращает «выборку» в «генеральную совокупность». Таков индекс
Рассела-Рао « a / ( a + b + c + d ) » ( Russel,Rao"On_ через Песенко»Принципы_с137 ), «
первоначально предложенный для измерений сопряженности между видами в их работе
по экологии комаров рода Anopheles
в штате Мадрас (Индия) […]. Знаменатель этого индекса представляет собой число
видов во всей серии из М анализируемых списков вместо числа видов, входящих
непосредственно в два сравниваемых списка » ( там же ).
Если (
гипотетически ) предположить, что в нашей серии имеются списки для всех подобных сообществ, имеющихся на
планете Земля, то « числом видов во всей серии » будет просто число видов в
роде Anopheles. Это
число можно рассматривать как более или менее постоянную величину ( константу
): в том смысле, что это число теперь перестало зависеть от действий эколога (
биогеографа ), а зависит только от действий систематика ( открытие / закрытие ,
дробление / объединение видов ). А это – относительно медленный процесс. (
Строго говоря, он также зависит от эволюции: появление / вымирание видов. Но
этот процесс – еще более медленен. В принципе, на эту условную константу может
также влиять хозяйственная деятельность человека: как правило, в сторону
уменьшения. Этот случай в рассматриваемом отношении – неясен: учитывать или нет
такие исчезнувшие виды. ) Для хорошо изученных таксонов кривая числа описанных
видов по годам – «в процессе» выхода на плато, - хотя и «осложнённом» разницей
мнений разныхсистематиков ( см.
Global__Status_ch4 ). Для таксонов верхнего уровня ( класс , тип , царство )
предполагаемая таксономическая изученность ( описанность, учтённость видов, -
отношение числа описанных к числу предполагаемых, - «estimated», - видов )
составляет от 0.13..8.0% ( бактерии ) до 82..90% ( хордовые ) ( по
Global__Asessment: p118
: Table 3.1-2 )
То, что
сравнение сообществ всегда производится по целому
таксону ( или, возможно,группе целых таксонов ) будет вторым
допущением. В случае выше это – род Anopheles. Возможно, это – неявное общепринятое условие. По
крайней мере, во всех известных мне случаях оно соблюдается.
Предположим,
мы имеем два растительных сообщества, сходство которых хотим оценить поналичию того или иного вида хвоща ( -- 1 род
в 1 семействе в 1 классе ): 1) { Equisetumsylvaticum } и 2) { E. sylvaticum , E. pratense , E. palustre }. Как можно видеть, a = 1, b
= 2, c = 0 . Параметром «d» будет остаток от общего числа видов
в роде ( «около 20» //Жизнь__Мхи_с145 ,
«some 15» //
Global__Status_p64 ).
Возьмём меньшее. Тогда d = 15 - 1 - 2 - 0 =12 . Формула Рассела-Рао здесь даёт значение
1 / ( 1 + 2 + 0 + 12 ) = 1 / 15 = ~
0.067 . Как можно видеть, «b» , «c» и «d» по отдельности здесь
не обязательны: будет даже проще обойтись общим числом видов, - обычно
обозначаемым как «S». Формула при этом будеттакой : a / S. Индекс Жаккара здесь будет равен a / ( a + b + c ) = a / ( S – d ) = 1 / ( 1 +
2 + 0 ) = 1 / 3 = ~ 0.33 .
Предположим
теперь, что вместо хвощей у нас – цветковые растения ( - «не менее 240 000
видов» // Жизнь__Цветковые_ч1 , «Оценки числа видов цветковых растений колеблются
между 240 000 и 750 000, но большинство ботаников принимает число
250 000 за самое точное.» // Global__Status_p65, мой перевод ). Индексы Рассела-Рао
и Жаккара будут, соответственно , равны 1
/ 250000 = 0.000004 и 1 / 3 = ~ 0.33
. Видно, что помимо прочих претензий к присутствию параметра «d» в формуле индекса ( Песенко"Принципы_с143,144 ),
можно добавить еще и огромное падение разрешения индекса.
Т.е., имеем
противоречие: учет «со-отсутствий» упрощает формулу, но снижает разрешение
результата; неучет – усложняет, но повышает. Типовым ( «компромиссным»? )
способом является та или иная форма соотнесения с максимально возможным
значением. В данном случае это означает, что нужно учесть все сообщества для данного таксона / набора таксонов, для всех этих сообществ посчитать сходство,
из этих сходств взять наибольшее и принять его за верхнюю границу. Решение этой
задачи, насколько я могу судить, пока технически возможно лишь для мало-видовых
узко распространённых групп.
Но если
договориться, что всякий раз в качестве
основания в индексе Рассела-Рао будет именно число всех видов ( или, вообще говоря, любых других под-таксонов )
рассматриваемого таксона или набора таксонов ( -- первое мое допущение, -
отличие того, что предлагаю я, от предложенного Расселом и Рао (ДП)), то для
оценок внутри данного надвидового
таксона ( -- второе мое допущение ), это -- общее число видов в формуле, собственно говоря, и не
нужно: теоретически возможны, но практически мне не известны формулы, где бы
были использованы совместно, скажем, оценки сходства по хвощам и по цветковым
растениям. Т.е., в одном случае будет иметь место только набор оценок вида 1/15 , 2/15 , 1/15, 1/15, 3/15, …; в
другом только – 24/250000,
56/250000, 7/250000, … . При этом видно, что в каждом наборе знаменатели –
одинаковы. Что позволяет их вынести за
пределы формулы, - либо явно указывая в тексте это общее число видов, либо
подразумевая, что читатель сам знает или способен найти это число, - как
условную константу для данного указанного таксона.
Итого, получили,
что простейший индекс сходства равен просто числу общих видов. Или Iп = a , Is =
a ( «s»
- «simplest» ).
Если знак
деления ( «дробь» ) понимать не как арифметическое действие, а как предлог «из»
, «в», «на» ( примерно так как в выражениях «километр в час», «грамм на
миллилитр», … ), то формулу можно дать в видеIп = a/S . Где ее значениями будут выражения вида «1/15» ( «один из
пятнадцати» ) , «24/250000» ( «двадцать четыре из двухсот пятидесяти тысяч» ) …
.
Если все же
понимать «арифметически», то последнюю формулу можно трактовать как иную форму
записи индекса Рассела-Рао. Чтоб отличить, в этом случае можно конкретизировать
и обозначить то, что понимается под общим числом видов: все виды данного
таксона в данной выборке сообществ (
Sв , Sp , «p» - «population», IRR
= a/Sp)
или все виды данного таксона на Земле
( Sз , SE , «E» - «Earth» , Is =
a/SE).
Можно ( и ,
вероятно, лучше ) также явно
обозначать и «неарифметичность»: Is = a«/»S , Is =
a«/»SE .
Как
промежуточный показатель ( «сырьё» ) этот параметр отдельно упоминается у
Песенко : «Если число общих видов считать мерой абсолютного сходства, то
индексы общности, связанные с ней будут измерять относительное сходство […].» (
"Принципы_с140 ).
Список
литературы
Андреев В.Л. Системы-классификации в биогеографии и систематике
(детерминистские методы). // с3,,59 // Иерархические классификационные
построения в географической экологии и систематике. – Влад-к, 1979, 167 с.
Бейли Н. Математика в биологии и медицине. - М: Мир, 1970
Василевич
В.И. Статистические методы в
геоботанике. - Л: Наука, 1969
Жизнь растений. В 6-ти т. Т. 4 Мхи. Плауны. Хвощи.
Папоротники. Голосеменные растения. - М: Просвещение, 1978, 447 с.
Жизнь растений. В 6-ти т. Т. 5. Ч. 1. Цветковые
растения. - М: Просвещение, 1980, 430 с.
Иванищев В.В. Математическое описание алгоритмических сетей. //
Системы автоматизации в науке и производстве. Сб. ст. - М: Наука, 1984, 262 с.,
с.23,,30
Константинов
А.С. Использование теории множеств в
биогеографическом и экологическом анализе.// Усп. совр. биол., 1969, т. 67, вып. 1
Макфедьен Э. Экология животных. Цели и методы. − М: Мир, 1965, 375
с.
Песенко Ю.А. Принципы и методы количественного анализа в
фаунистических исследованиях. - М: Наука, 1982, 287 с.
Семкин Б.И. Дескриптивные множества и их приложения //
Исследование систем, т. 1. Анализ сложных систем. – Владивосток: ДВНЦ АН СССР,
1973
Чернов Ю.И. О некоторых индексах, используемых при анализе
структуры животного населения суши.//
Зоол. журнал, 1971 т.50, вып. 7
Чернов Ю.И. Основные синэкологические характеристики почвенных
беспозвоночных и методы их анализа.//
с160,,216 // Методы почвенно-зоологических исследований. - М: Наука, 1975, 277
с.
Шмидт В.М. Математические методы в ботанике. - Л: ЛГУ, 1984, 288
с.
Global
Biodiversity: Status of the Earth's Living Resources. - London et al.: Chapman
& Hall, 1992, 585 p.
Global Biodiversity
Asessment. - Cambridge: Cambridge Un'ty Press, 1995, 1140 p.
Russel P.F., Rao T.R. On habitat and association of
species of anophelline larvae in South-Eastern Madras.// J. Malar. Inst. India, 1940, vol. 3, N 2, p.
153-178