Отправляет email-рассылки с помощью сервиса Sendsay

ПрЕдписная биогеография

  Все выпуски  

ПрЕдписная биогеография


Рассылка -- ‘ ПрЕдписная биогеография
Выпуск  -- # 20
Отправлен -- 2011'10'10



» « к//рпь|\|v|*///9\1\  » // 3108*5’’///намеченное бщ «

Пушкарев С.В. Простейшая формула сходства сообществ. = Королёв, 2010\12\8,,,2011\2\22, 12(25)К

 

( часть 1 из 2 )

Предисловие

Недавно у меня вышла короткая статья в материалах совещания. Как оказалось, оргкомитет и/или редакция сильно изменил исходное оформление рукописи. В результате чего исчезли многие кавычки ( т.е., меня могут обвинить в плагиате :-( ) , некоторые ссылки стали неправильными, пропали более дробные указания внутри ссылок ( на главы и страницы ) . Исправлением этого непорядка служит данная публикация.

Здесь я даю сначала опубликованный в материалах совещания , потом исходный вариант. Первый – для ссылок, второй – для работы.

Текст опубликованной статьи извлечен из PDF’а ( pdf -> doc ) , лежащего на сайте Ботанического института ( смотри ссылку ниже ), с помощью программы Nitro PDF Professional ( http://www.pdftoword.com/ ) . Отличий от исходного pdf’а я не заметил. ( Отличия , надо полагать , появятся при преобразовании doc’а в гипертекст при отправке выпуска. :-( :-) )

Любопытно, что при попытках снять из паутины штуки три иных конвертеров ( PDF Creator , ... ) получил штук 7 файлов , зараженных тремя троянами. DrWeb их отправляет в карантин, откуда нужно стереть.

Вот ссылка на публикацию в материалах совещания. :

Пушкарев С.В. Простейшая формула сходства сообществ // Отечественная геоботаника: основные вехи и перспективы: Мат. Всерос. конф. (СПб, 20–24 сентября 2011 г.). Том 1: Разнообразие типов растительных сообществ и вопросы их охраны. География и картография растительности. История и перспективы геоботанических исследований. - СПб, 2011. 462 с. , с207,,209 // http://www.binran.ru/geobot2011/materials/diversity.pdf ,,

А вот – сама публикация. :

 

ПРОСТЕЙШАЯ ФОРМУЛА СХОДСТВА СООБЩЕСТВ С. В. Пушкарев

Институт географии РАН

119017, Россия, Москва, Старомонетный пер., 29. E-mail: push15@ya.ru, push@nightmail.ru

 

Ключевые слова: индекс сходства, индекс Рассела–Рао, индекс Чекановского–Сёренсена , индекс Жак- кара , коэффициент сходства.

Индексов оценки сходства сообществ (выборок, коллекций, списков, территорий) по качественным данным («присутствие»/«отсутствие») создано около двух десятков (Песенко, 1982). Если Бейли в 1970 г. насчитывал их около 20, то в настоящее время их стало бесконечно много, так как сформулированы не- сколько правил, по которым «изобретаются» коэффициенты (Семкин, 1973; Андреев, 1970).

Наиболее известными из них являются индексы (коэффициенты) Чекановского–Сёренсена и Жаккара. Существует задача выбора наилучшего индекса. Однако и на этом пути встречаются многие трудности, связанные с чрезмерным обилием коэффициентов, используемых, как принято считать, для одних и тех же целей (Бейли, 1970; Василевич, 1969; Sneath, Sokal, 1973). До сих пор в биологической литературе не прекращаются споры о том, какой из двух самых простых коэффициентов, Жаккара или Чекановского–Сё- ренсена, следует применять для характеристики сходства (Макфедьен, 1965; Константинов, 1969; Андреев,

1970; Чернов, 1971).

Сравнению и критике разных индексов посвящен ряд работ (Чернов, 1975; Шмидт, 1984). Критику критики дал Песенко (1982). Его вывод таков: «следует признать всех их вполне законными и состоятель- ными» (с. 138). И в качестве собственного критерия он предлагает простоту: «При прочих равных усло- виях основным критерием выбора индекса должна быть его простота» (там же). Простоту он понимает как близость графика того или иного индекса на шкале «относительной разницы между числом видов в списках» или «относительного числа общих видов в сравниваемых списках» к прямой линии, — т. е. наи- меньшую искривлённость графика.

Я же предлагаю под «простотой индекса» понимать простоту его формулы. Вероятно, в общем случае здесь будет несколько оценок для каждой формулы, или своя оценка для каждого варианта формулы. Так, априори, сложность формулы индекса Чекановского–Сёренсена, понимаемой как отношение числа общих видов к среднему от числа видов в каждом из двух списков, выглядит меньшей, чем сложность непосред- ственно используемой для расчетов формулы того же индекса (см. ниже). Ниже эта простота оценивается неявно (на уровне очевидности), но можно это сделать и формально: через сети Иванищева («алгоритми- ческие» — Иванищев, 1984).

В индексах может учитываться или не учитываться количество «со-отсутствий» («число отрицательных совпадений»). Относительно того, помогает или мешает присутствие этого числа в формуле отразить сход- ство сообществ, единого мнения нет есенко, 1982). Как правило, этот параметр не используют. Таковы, в частности, упомянутые индексы Чекановского–Сёренсена и Жаккара. В обозначениях a присутствие, присутствие (т. е. число видов, присутствующих в первом и присутствующих во втором сообществах ), b присутствие, отсутствие, с отсутствие, присутствие, d отсутствие, отсутствие, первый выглядит как

2*а / (a + b + 2*c) , второй как а / (a + b + c) . Как можно видеть, параметр d нигде не задействован.

Для поставленной задачи упрощения имеет значение то, что присутствие этого числа в той сумме слу- чаев, относительно которой как знаменателя производится нормирование, превращает «выборку» в «гене- ральную совокупность». Таков индекс Рассела–Рао a / (a + b + c + d) (Russel, Rao, 1940), первоначально предложенный для измерений сопряженности между видами в их работе по экологии комаров рода Anoph- eles в штате Мадрас (Индия). Знаменатель этого индекса представляет собой число видов во всей серии из М анализируемых списков вместо числа видов, входящих непосредственно в два сравниваемых списка.

Если (гипотетически) предположить, что в нашей серии имеются списки для всех подобных со- обществ, имеющихся на планете Земля, то числом видов во всей серии будет просто число видов в роде Anopheles. Это число можно рассматривать как более или менее постоянную величину (константу) в том смысле, что это число теперь перестало зависеть от действий эколога (биогеографа), а зависит только от действий систематика (открытие/закрытие, дробление/объединение видов). А это — относительно медлен- ный процесс. Строго говоря, он также зависит от эволюции: появление/вымирание видов. Но этот процесс еще более медленен. В принципе, на эту условную константу может также влиять хозяйственная деятель- ность человека, как правило, в сторону уменьшения. Этот случай в рассматриваемом отношении неясен: учитывать или нет такие исчезнувшие виды. Для хорошо изученных таксонов кривая числа описанных ви- дов по годам — в процессе выхода на плато, хотя и осложнённом разницей мнений разных систематиков (Global…, 1992). Для таксонов верхнего уровня (класс, тип, царство) предполагаемая таксономическая из- ученность (описанность, учтённость видов, отношение числа описанных к числу предполагаемых видов) составляет от 0.13..8.0 % (бактерии) до 82..90 % (хордовые) (Global…, 1995).

То, что сравнение сообществ всегда производится по целому таксону (или, возможно, группе целых таксонов), будет вторым допущением. В случае выше это род Anopheles. Возможно, это неявное обще- принятое условие. По крайней мере, во всех известных мне случаях оно соблюдается.

Предположим, мы имеем два растительных сообщества, сходство которых хотим оценить по наличию того или иного вида хвоща (1 род в 1 семействе в 1 классе): 1) Equisetum sylvaticum и 2) E. sylvaticum, E. pratense, E. palustre. Как можно видеть, a = 1, b = 2, c = 0 . Параметром d будет остаток от общего числа видов в роде: около 20 (Жизнь растений, 1978), «some 15» (Global…, 1992). Возьмём меньшее. Тогда d =

15 — 1 — 2 — 0 = 12 . Формула Рассела–Рао здесь даёт значение 1 / (1 + 2 + 0 + 12) = 1 / 15 = ~ 0.067 . Как можно видеть, b, c и d по отдельности здесь не обязательны: будет даже проще обойтись общим числом видов, обычно обозначаемым как S. Формула при этом будет такой: a / S . Индекс Жаккара здесь будет ра- вен a / (a + b + c) = a / (S — d) = 1 / (1 + 2 + 0) = 1 / 3 = ~ 0.33 .

Предположим теперь, что вместо хвощей у нас цветковые растения (не менее 240 000 видов (Жизнь растений, 1980)). Оценки числа видов цветковых растений колеблются между 240 000 и 750 000, но боль- шинство ботаников принимает число 250 000 за самое точное (Global…1992). Индексы Рассела–Рао и Жаккара будут, соответственно, равны 1 / 250000 = 0.000004 и 1 / 3 = ~ 0.33. Видно, что помимо прочих претензий к присутствию параметра d в формуле индекса (Песенко, 1982), можно добавить еще и огром- ное падение разрешения индекса.

Таким образом, мы имеем противоречие: учет «со-отсутствий» упрощает формулу, но снижает раз- решение результата; неучет усложняет, но повышает. Типовым (компромиссным?) способом является та или иная форма соотнесения с максимально возможным значением. В данном случае это означает, что нужно учесть все сообщества для данного таксона / набора таксонов, для всех этих сообществ посчитать сходство, из этих сходств взять наибольшее и принять его за верхнюю границу. Решение этой задачи, на- сколько я могу судить, пока технически возможно лишь для маловидовых узко распространённых групп.

Но если договориться, что всякий раз в качестве основания в индексе Рассела–Рао будет именно число всех видов (или любых других подтаксонов) рассматриваемого таксона или набора таксонов (первое мое допущение — отличие того, что предлагаю я, от предложенного Расселом и Рао), то для оценок внутри данного надвидового таксона (второе мое допущение), это общее число видов в формуле и не нужно: те- оретически возможны, но практически мне не известны формулы, где бы были использованы совместно оценки сходства по хвощам и по цветковым растениям. Т. е., в одном случае будет иметь место только на- бор оценок вида 1/15 , 2/15 , 1/15, 1/15, 3/15, …; в другом — только 24/250000, 56/250000, 7/250000, … При этом видно, что в каждом наборе знаменатели одинаковы. Это позволяет их вынести за пределы формулы, либо явно указывая в тексте это общее число видов, либо подразумевая, что читатель сам знает или спосо- бен найти это число как условную константу для данного указанного таксона.

Итого, получили, что простейший индекс сходства равен просто числу общих видов. Или Iп = a, Is =

a (s — «simplest»).

Если знак деления (дробь) понимать не как арифметическое действие, а как предлог из «в», «на» (при- мерно так, как в выражениях «километр в час», «грамм на миллилитр», …), то формулу можно дать в виде Iп  = a/S, где ее значениями будут выражения вида 1/15 (один из пятнадцати), 24/250000 вадцать четыре из двухсот пятидесяти тысяч)…

Если все же понимать «арифметически», то последнюю формулу можно трактовать как иную форму записи индекса Рассела–Рао. Чтобы отличить, в этом случае можно конкретизировать и обозначить то, что понимается под общим числом видов: все виды данного таксона в данной выборке сообществ (Sв, Sp, p

«population», IRR = a/Sp) или все виды данного таксона на Земле (Sз, SE, E — «Earth» , Is = a/SE).

Можно (и, вероятно, лучше) также явно обозначать и «неарифметичность»: Is = a«/»S, Is = a«/»SE.

Как промежуточный показатель («сырьё») этот параметр отдельно упоминается у Песенко: «Если чис-

ло общих видов считать мерой абсолютного сходства, то индексы общности, связанные с ней, будут изме- рять относительное сходство» (Песенко, 1982: 140).

 

Список литературы

Андреев В. Л. 1979. Системы-классификации в биогеографии и систематике (детерминистские методы) //Иерар- хические классификационные построения в географической экологии и систематике. Владивосток. 167 с. –– Бейли Н.

1970. Математика в биологии и медицине. М. –– Василевич В. И. 1969. Статистические методы в геоботанике. Л. –– Жизнь растений. Т. 4. Мхи. Плауны. Хвощи. Папоротники. Голосеменные растения. 1978. М. 447 с. –– Жизнь расте- ний. Т. 5. Ч. 1. Цветковые растения. 1980. М. 430 с. –– Иванищев В. В. 1984. Математическое описание алгоритмиче- ских сетей // Системы автоматизации в науке и производстве. М. 262 с. –– Константинов А. С. 1969. Использование теории множеств в биогеографическом и экологическом анализе // Усп. совр. биол. Т. 67. Вып. 1. –– Макфедьен Э. Экология животных. Цели и методы. 1965. М. 375 с. –– Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях. 1982. М. 287 с. –– Семкин Б. И. 1973. Дескриптивные множества и их приложения // Исследование систем. Т. 1. Анализ сложных систем. Владивосток. –– Чернов Ю. И. 1971. О некоторых индексах, ис- пользуемых при анализе структуры животного населения суши // Зоол. Журн. Т. 50. Вып. 7. –– Чернов Ю. И. 1975. Основные синэкологические характеристики почвенных беспозвоночных и методы их анализа // Методы почвенно- зоологических исследований. М. 277 с. –– Шмидт В. М. 1984. Математические методы в ботанике. Л. 288 с. –– Global Biodiversity: Status of the Earths Living Resources. 1992. London et al. 585 p. –– Global Biodiversity Asessment. 1995. Cambridge. 1140 p. –– Russel P. F., Rao T. R. 1940. On habitat and association of species of anophelline larvae in South- Eastern Madras // J. Malar. Inst. India. Vol. 3. N 2. P. 153–178. –– Sneath P. H. A., Sokal R. R. 1973. Numerical taxonomy. Sant-Fransko.


 


 


В избранное