Анализ сопряженности насаждений
Анализ сопряженности основывается на качественных данных (наличие и отсутствие видов). Количественные данные, т. е. данные, включающие некоторую меру количества различных видов в разных сообществах, требуют иного подхода. Очевидным критерием сопряженности между видами является коэффициент корреляции. Возможность использования этого коэффициента для оценки корреляции между количествами различных видов при изучении их взаимоотношений и образуемых ими группировок давно привлекала внимание геоботаников. Стюарт и Келлер изучали корреляцию покрытия различных видов в разных «типах» растительности (определяемых по наиболее обильным видам) в полупустынных кустарниковых сообществах штата Юта.
На основании этих исследований были сделаны различные выводы относительно взаимоотношений между видами, однако Стюарт и Келлер не пытались использовать эти результаты для обоснования какой-либо формальной системы классификации насаждений. Туомикоски изучал корреляцию между встречаемостью видов на квадратах площадью 1 м2, на болотах в Финляндии и пытался объединять виды в группы, члены которых обнаруживали взаимную положительную корреляцию и отрицательную корреляцию с членами других групп. Таким образом, он занимался скорее выявлением экологических групп видов (смотрите ниже), чем классификацией сообществ.
В последнее время при ординации растительности были сделаны попытки применения методов факторного анализа, первоначально разработанных для оценки данных психологических экспериментов. Факторный анализ был применен Гудоллом к тем же образцам из эвкалиптовых зарослей, па которых он изучал сопряженность между видами, Хаммингом — при изучении травянистых сообществ и Даньели — к данным по буковому лесу, а также к данным Элленберга по травянистой растительности и данным Брэя и Кёртиса по лесной растительности штата Висконсин.
Количественное участие любого вида в сообществе можно рассматривать как функцию уровней некоторого количества факторов.
Из этих факторов некоторые оказывают влияние на несколько или даже на все виды сообщества, другие специфичны для отдельных видов. Если бы обилие двух видов целиком определялось одними и теми же общими факторами, они обнаружили бы полную корреляцию по этому признаку. Ожидаемое обилие вида в сообществе будет выражаться формулой
где Fa, F2i и т. д. — значения общих факторов в сообществе г, Sji — значение фактора, специфичного для вида и ал, aj2 и т. д. — коэффициенты, характерные для вида ] и выражающие степень, в которой его состояние определяется каждым из общих факторов. Сходство этого выражения с уравнением множественной регрессии очевидно. Различие состоит в том, что величины Fa, FZi и т. д. неизвестны, и, более того, сами факторы на этой стадии обычно не поддаются идентификации, если она вообще бывает возможна.
Из членов этого и приведенного выше уравнения известно, а коэффициенты корреляции между всеми парами видов можно вычислить. Проблема состоит в том, чтобы получить наиболее точную оценку коэффициентов а, «нагрузок» видов на различные факторы. При рассматриваемом подходе подразумевается, что вся матрица коэффициентов корреляции может быть отнесена на счет существенно меньшего числа факторов, чем число присутствующих видов.
Здесь не рассматривается техника вычислений, и за необходимыми справками мы отсылаем читателя к различным работам по факторному анализу.
Имеются, однако, некоторые общие соображения, которые следует обсудить. Первой ступенью анализа является построение матрицы коэффициентов корреляции. По основной диагонали будут располагаться корреляционные коэффициенты , т. е. коэффициенты, описывающие корреляцию вида с самим собой. При расчете по наблюдаемым данным эти коэффициенты, естественно, будут иметь величину 1. Коэффициент корреляции г^, однако, будет включать не только члены формы ан, а h и т- Д- (квадраты нагрузок на общие факторы), но и член a's, где ajs — нагрузка на фактор, специфический для данного вида, и теоретически член, отражающий элемент случайности в количестве вида (хотя на практике его нельзя будет отличить от последнего члена). Имеется расхождение в мнениях относительно того, следует ли производить анализ с учетом единиц на главной диагонали корреляционной матрицы (компонентный анализ), или единичные значения следует заменять общностями, т. е. величинами, показывающие, как состояние вида определяется общими факторами (факторный анализ в узком смысле слова). (Общности могут быть определены из остальной части матрицы.)
Решение вопроса о том, что лучше использовать при анализе — единицы или общности, зависит, по крайней мере частично, от характера исследуемой проблемы.
Тэрстоун полагает, что если непосредственная цель анализа состоит в воспроизведении «пробных отметок» (в данном случае величины обилия для вида в каждом насаждении) с возможно большей точностью, в клетки главной диагонали следует записывать единицу. Если, с другой стороны, цель состоит в выявлении взаимосвязей (между видами), следует употреблять общности. Таким образом, представляется, что если при анализе растительности главной целью является ординация как таковая, следует использовать единицы, но если интерес сосредоточивается на взаимоотношениях между видами и контроле над ними со стороны экологических факторов, должны использоваться общности. Имея в виду, что факторный анализ является по существу методом исследования, служащим для упрощения сложных совокупностей данных в тех случаях, когда контролирующие растительность факторы частично или полностью неизвестны, основной целью работы обычно является выяснение взаимосвязей, в связи с чем, как правило, следует предпочитать использование общностей. На практике, как будет показано ниже, получаемые выводы, по-видимому, существенно не отличаются друг от друга.
Для расчета нагрузки видов на разные факторы был предложен ряд методов, которые мы не будем здесь рассматривать.
По общему мнению, наиболее подходящим является метод «главных осей». Другие обычно используемые методы являются приближенными вариантами этого метода, предназначенными для облегчения вычислительной работы. Нагрузки обычно представляют в форме таблиц типа таблица 20, которая показывает первые три фактора, извлеченные Гудолл ом из его данных по эвкалиптовым зарослям в штате Виктория С первым фактором, А, связано наибольшее количество корреляции. После его извлечения рассчитывается новая матрица, содержащая остаточную корреляцию, из которой извлекается второй фактор, и т. д. до тех пор, пока не перестанет обнаруживаться значимая корреляция. В последнем столбце показаны значения й2, т. е. суммы квадратов нагрузок на различные факторы для одного вида. Эта величина показывает долю дисперсии вида, связанную с извлеченными факторами; остаток связан с действием других значимых общих факторов, с факторами, специфичными для вида, и с элементом случайности.
Виды | фактор A | Фактор в | Фактор С | Ifi |
Bassia uniflora | 0,84 | —0,10 | 0,14 | 0,73 |
Chenopodium pseudomicrophyl-htm (стелющаяся форма) | 0,31 | 0,57 | 0,00 | 0,43 |
С. pseudomicrophyllum (прямостоячая форма) | 0,15 | 0,73 | 0,02 | 0,55 |
Danthonia semiannularis | —0,56 | 0,48 | 0,22 | 0,5В |
Dodonaea hursariifolia | —0,74 | 0,08 | —0,22 | 0,60 |
Eucalyptus caiycogona | 0,50 | 0,43 | —0,50 | 0,69 |
Eucalyptus dumosa | —0,53 | 0,53 | —0,34 | 0,68 |
Eucalyptus oleosa | 0,76 | —0,15 | 0,18 | 0,63 |
Melaleuca uncinata | —0,67 | —0,21 | 0,55 | 0,80 |
Stipa variabilis | 0,34 | 0,72 | 0,21 | 0,68 |
Triodia irritans | —0,76 | —0,06 | —0,34 | 0,70 |
Vittadinia triloba | 0,04 | 0,43 | 0,59 | 0,54 |
Westringia rigida | 0,48 | 0,06 | —0,51 | 0,49 |
Zygophyllvm apiculatunl | 0,77 | —0,22 | 0,02 | 0,64 |
Нагрузки на первые три фактора, выделенные Гудоллом с помощью метода главных осей для единичных значений Л2, по Даиьети. Взаимоотношения видов могут быть представлены в геометрической форме. Нагрузки вида на различные факторы принимают за координаты, определяющие положение вида в «факторном пространстве».
На фигуре 25 показано положение 14 изучавшихся Гудоллом видов по отношению к первым двум выделенным факторам, найденное четырьмя разными методами:
- методом главных осей для единиц;
- центроидным методом для единиц;
- методом главных осей для общностей;
- центроидным методом для общностей.
Фигура. 25. Положение в факторном пространстве 14 видов, использованных Гудоллом прн анализе эвкалиптовых зарослей в штате Виктория.
При рассмотрении фигуре 25 видно, метод главных осей для единиц. В. Центроидный метод для единиц. Метод главных осей для общностей. Г. Центроидный метод для общностей что, хотя чертежи несколько отличаются друг от друга, относительное расположение видов остается сравнительно постоянным. Это говорит о том, что вариации метода анализа не влияют в серьезной степени на экологические выводы. Даньелн приводит аналогичные чертежи для своих данных по буковому лесу, которые также показывают, что метод анализа мало влияет на относительное расположение видов.
На этой стадии анализа исследователь определяет ординацию видов в факторном пространстве. На основании этих данных можно сделать выводы, представляющие экологический интерес.
Виды, оказывающиеся при ординации близкими друг к другу, сходны по своему отношению к выделяемым факторам и, следовательно, в той мере, в какой эти факторы отражают экологические факторы, сходны по своим экологическим свойствам; как указывает Даньели, такие группы видов представляют ценность как дифференциальные виды. Расстояние точки, соответствующей какому-либо виду, от начала координат равно таким образом, точки, расположенные близ начала координат, соответствуют таким видам, встречаемость которых оказывается незначительно связанной со значениями факторов.
К подобного рода видам, как указывает Даньели, относятся не только те из них, которые связаны главным образом с каким-то специфическим фактором и в меньшей степени с общими факторами (индикаторные виды), но также виды с широким случайным распространением, т. е. такие, для которых весь диапазон условий в изучаемых сообществах составляет лишь часть их экологического диапазона. Ординация видов представлена на фиг. 25 только по отношению к двум осям. Теоретически предела для числа осей, определяющих факторное пространство, очевидно, нет. Пространство с тремя осями может быть представлено трехмерной моделью; дальнейшее увеличение числа осей делает графическое изображение невозможным, и соответственно возрастает трудность экологической интерпретации.
Оси, соответствующие выделяемым факторам, используются для осуществления ординации видов, однако сама ординация от них не зависит. При интерпретации может оказаться полезным повернуть оси таким образом, чтобы первая из них соответствовала градиенту, имеющему очевидное экологическое значение, на что может указывать, например, наличие на ее противоположных концах групп видов с известными экологически контрастными свойствами. Существуют методы выполнения такого по ворота или даже отнесения ординации к наклонным осям. Решение о том, нужно ли менять положение осей, следует принимать исходя из биологических соображений и сведений об ивучаемых видах и растительности.
Поскольку можно произвести оценки нагрузки различных видов на разные факторы, а обилие видов в разных насаждениях известно, легко можно рассчитать оценки значений факторов для каждого насаждения. Мы не можем останавливаться здесь на методике такого расчета, однако совершенно ясно, что в результате будет получена ординация насаждений по значениям факторов, рассчитанным для каждого из них. Эта ординация, как и ординация видов, может быть представлена графически с помощью системы координат, образованной двумя или большим числом осей. (Надо заметить, однако, что в то время как при ординации видов значения характеристики каждого вида на любой оси имеют верхний предел, равный 1, при ординации насаждений такого предела нет.)
Интерйретация ординации насаждений зависит от наличия независимой информации по учитываемым видам. Так, Гудолл при анализе эвкалиптовых зарослей показал, что виды с наиболее высокими положительными нагрузками на первый фактор оказались видами, обитающими на слабо дренируемых низменностях, тогда как виды с высокими отрицательными нагрузками занимали соседние возвышенности. Он пришел к заключению, что первый фактор представляет собой в широком смысле слова градиент влажности почвы. Второй фактор он рассматривал как выражение нелинейного компонента реакции на влажность почвы; три остальных фактора идентифицировать не удалось. У. Уильяме и М. Дэйл (личное сообщение) вновь рассмотрели данные Гудолла и пришли к выводу, что трудность интерпретации факторов связана с отсутствием непрерывности данных. Необходимо подчеркнуть, что, хотя есть возможность экологической интерпретации выделяемых факторов (и лишь в этом случае анализ имеет смысл), сами факторы по своей природе являются чисто фитоцено- логическими, выражая корреляцию между видами по встречаемости и не имея никакого значения вне этих отношений.
Выделение факторов имеет две задачи:
- упрощение 17 — 522 сложных данных, облегчающее их рассмотрение и интерпретацию;
- выдвижение гипотез, которые могли бы в дальнейшем быть проверены другими данными (особенно при использовании общностей и вращении осей).
В заключение следует отметить, что методы факторного анализа не связаны с какой-либо определенной формой распределения исходных данных.
Можно использовать даже данные по присутствию и отсутствию, как показал в отношении геоботанических данных Даньели. По существу анализ сопряженности Уильямса и Лэм- берта является приближением к факторному анализу, основанным на использовании данных по присутствию и отсутствию видов.
Факторный анализ мы рассматривали выше как анализ насаждений (или других образцов растительности), принимаемых за индивидуумы. Виды при этом выступали в качестве «признаков» или «критериев» действующих факторов, причем основными данными были данные по корреляции между всеми возможными парами видов, которые могут встретиться в различных насаждениях. Различные методы, применяемые при таком подходе, были названы R-методикой. Можно также рассматривать виды как индивидуумы, а насаждения — как критерии, изучая все возможные пары насаждений в отношении корреляций характеристик разных видов в этих парах (Q-методика).
После того как корреляционная матрица составлена, ход обработки данных сходен с ходом обработки при применении R-методики; так же возникает необходимость выбора между единицами и общностями на главной диагонали и проблема выбора способа расчета нагрузок. Поскольку при применении Q-методики мы получаем непосредственно ординацию насаждений, а в большинстве исследований требуется именно это, она имеет очевидное преимущество. Кроме того, Q-методика и коэффициенты сходства являются статистически устойчивыми, т. е. коэффициент сходства и применяемые варианты методики анализа мало влияют на получаемые результаты.
Таким образом, факторный анализ является очень гибкой методикой, специально приспособленной к углубленному исследованию сложных данных со многими переменными, и в будущем он, несомненно, будет играть важную роль в геоботанике. Однако, как и любой другой метод, он имеет ограничения, которые следует принимать во внимание. Наиболее очевидный его недостаток — трудоемкость вычислений — будет, по-видимому, иметь все меньшее значение по мере того, как будут становиться все более доступными электронные вычислительные машины. Тем не менее даже при работе на электронных машинах факторный анализ любого обширного материала требует больших затрат если не времени геоботаника, то машинного времени, вследствие чего число видов или же насаждений, которые можно обработать, может оказаться ограниченным. Поэтому, если предполагается проводить факторный анализ, то очень важно планировать сбор данных, имея это в виду.
В основе факторного анализа лежат два важных допущения:
- описываемые факторы независимы друг от друга;
- обилие видов находится в линейной зависимости от влияющих на них факторов.
Кёртис указывает, что «хотя различные измеримые характеристики растительных сообществ, несомненно, связаны с факторами среды, нет уверенности в том, что сами эти факторы независимы, а следовательно, и уверенности в том, что единицы» (т. е. факторы), «выделяемые при анализе, реальны». Подобным же образом нет уверенности в том, что контроль выражается в виде линейной зависимости; и в самом деле, опыт геоботанических исследований показывает, что часто такая зависимость отсутствует. Только в ходе накопления опыта интерпретации данных, получаемых при этом анализе, можно определить, насколько серьезны эти ограничения. Возможно, что затруднения, которые испытал Гудолл прн интерпретации своих третьего и следующих факторов, отражают эти общие трудности.
Уильяме указывает, что если в исходных данных наблюдается полное отсутствие непрерывности, то, несмотря на то, что с помощью первого фактора выделяются две совокупности, любые последующие факторы, по-видимому, будет трудно связать с этими совокупностями, а остальные факторы, выделенные в одном анализе, может оказаться невозможным каким-либо образом интерпретировать. Следовательно, желательно производить полностью раздельные анализы этих совокупностей. Это особенно подчеркивает то обстоятельство, что факторный анализ более пригоден для анализа данных по группе близких насаждений, чем для более широких исследований.
Методы факторного анализа, как мы видели, могут быть применены к данным по видовой корреляции, а также к данным по корреляции или сходству насаждений. Одно время внимание исследователей привлекала возможность использования показателей сходства при составлении классификации для совокупности насаждений. Сервисен рассчитывал значения коэффициента, названного его именем, для всех пар насаждений и объединял в одну группу те из них, для которых значение коэффициента корреляции между двумя насаждениями было не ниже 50%. Полученные таким способом группы были затем объединены в «группы второго порядка», для которых предельное значение коэффициента было принято равным 40% и т. д. Таким путем была получена объективная классификация. Луман и Кэмпбел указывают, что значимость данной величины коэффициента, как показателя степени сходства, изменяется в зависимости от общего числа видов во всех изучаемых насаждениях и числа видов в каждом из сравниваемых насаждений.
Они использовали 0,1%-ное значение %2 для расчета наименьшего числа видов, общих для двух насаждений, которое показывало бы наличие связи между ними. Их детализированные выводы по материалам Сёренсена требуют поправки, так как они использовали величины у? для двух степеней свободы вместо одной, что соответствовало бы таблице сопряженности 2x2; тем А. Схематическая диаграмма, изображающая матрицу гипотетических показателей сходства между парами насаждений. Б. Те же показатели, расположенные так, что сходные насаждения занимают соседние места, причем появляются хорошо различимые группы в виде треугольников высоких значений (из работы Снеса и Сокала с некоторыми изменениями).
Фигура. 26. Расположение насаждений в системе относительно друг друга с помощью показателей сходства.
Не менее их обработка все же показала, что произвольные уровни Серенсена не привели к грубым ошибкам в группировке данных. Такая проверка значимости для каждого отдельного сравнения лишь приближает нас к цели, так как вопрос заключается в том, какова значимость всей матрицы сходства; для нее же не существует простого способа проверки.
Различные исследователи использовали показатели сходства как основу для расположения насаждений в системе друг относительно друга. Одним из простых способов является изменение порядка расположения насаждений в матрице показателей таким образом, чтобы высокие значения оказались возможно ближе к диагонали (фигура. 26). Хорошо различимые группы выявятся в виде треугольников высоких значений, как на фиг. 26, Б.
Данные по реальной растительности вряд ли дадут такие четкие различия, а выбор способа окончательного оформления данных — в виде классификации или в виде ординации — зависит от точки зрения, которой придерживается исследователь. Подобным же образом использовались показатели, взвешенные мерами обилия видов. Так, Клоузен обрабатывала свои данные, исходя из данных по встречаемости, а также данных по присутствию, а Раабе использовал для оценки сходства между абстрактными сообществами среднее различие константности видов.
Понятие фактора как выражения корреляции между изучаемыми переменными, используемое в факторном анализе, следует четко отличать от понятия фактора, обычно используемого в экологической литературе. Содержательное, краткое и ясное изложение принципов факторного анализа в применении к биологическим объектам можно найти у Феррарн и др..