Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies

Geographic structure of genetic distances among local populations within species, based on allozyme data, has usually been evaluated by estimating genetic distances clustered with hierarchical algorithms, such as the unweighted pair-group method by arithmetic averages (UPGMA). The distortion produce...

Full description

Bibliographic Details
Main Authors: Flávia Melo Rodrigues, José Alexandre Felizola Diniz-Filho
Format: Article
Language:English
Published: Sociedade Brasileira de Genética 1998-06-01
Series:Genetics and Molecular Biology
Online Access:http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-47571998000200010
id doaj-8d7ea289cbc041a4a277605fe9a2a06b
record_format Article
collection DOAJ
language English
format Article
sources DOAJ
author Flávia Melo Rodrigues
José Alexandre Felizola Diniz-Filho
spellingShingle Flávia Melo Rodrigues
José Alexandre Felizola Diniz-Filho
Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies
Genetics and Molecular Biology
author_facet Flávia Melo Rodrigues
José Alexandre Felizola Diniz-Filho
author_sort Flávia Melo Rodrigues
title Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies
title_short Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies
title_full Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies
title_fullStr Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies
title_full_unstemmed Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequencies
title_sort hierarchical structure of genetic distances: effects of matrix size, spatial distribution and correlation structure among gene frequencies
publisher Sociedade Brasileira de Genética
series Genetics and Molecular Biology
issn 1415-4757
1678-4685
publishDate 1998-06-01
description Geographic structure of genetic distances among local populations within species, based on allozyme data, has usually been evaluated by estimating genetic distances clustered with hierarchical algorithms, such as the unweighted pair-group method by arithmetic averages (UPGMA). The distortion produced in the clustering process is estimated by the cophenetic correlation coefficient. This hierarchical approach, however, can fail to produce an accurate representation of genetic distances among populations in a low dimensional space, especially when continuous (clinal) or reticulate patterns of variation exist. In the present study, we analyzed 50 genetic distance matrices from the literature, for animal taxa ranging from Platyhelminthes to Mammalia, in order to determine in which situations the UPGMA is useful to understand patterns of genetic variation among populations. The cophenetic correlation coefficients, derived from UPGMA based on three types of genetic distance coefficients, were correlated with other parameters of each matrix, including number of populations, loci, alleles, maximum geographic distance among populations, relative magnitude of the first eigenvalue of covariance matrix among alleles and logarithm of body size. Most cophenetic correlations were higher than 0.80, and the highest values appeared for Nei's and Rogers' genetic distances. The relationship between cophenetic correlation coefficients and the other parameters analyzed was defined by an "envelope space", forming triangles in which higher values of cophenetic correlations are found for higher values in the parameters, though low values do not necessarily correspond to high cophenetic correlations. We concluded that UPGMA is useful to describe genetic distances based on large distance matrices (both in terms of elevated number of populations or alleles), when dimensionality of the system is low (matrices with large first eigenvalues) or when local populations are separated by large geographical distances.<br>A estrutura geográfica das distâncias genéticas entre populações locais dentro das espécies, baseada em dados de aloenzimas, tem sido usualmente avaliada com algorítimos hierárquicos, como o método não ponderado por médias aritiméticas (UPGMA). A distorção produzida no processo de agrupamento é estimada por um coeficiente de correlação cofenética. Estas abordagens hierárquicas, entretanto, podem falhar em produzir uma representação acurada das distâncias genéticas entre populações em espaços de pequena dimensão, especialmente quando padrões contínuos (clinais) ou reticulares de variação existem. Neste trabalho, nós analisamos 50 matrizes de distância genética entre populações animais da literatura, variando de platelmintos a mamíferos, para avaliar em que situações o UPGMA é útil para entender os padrões de variação genética entre as populações. Os coeficientes de correlação cofenética, derivados do UPGMA baseados em três tipos de coeficientes de distância genética, foram correlacionados com outros parâmetros de cada matriz, incluindo número de populações, loci, alelos, distância máxima geográfica entre as populações, magnitude relativa do primeiro autovalor da matriz de covariância entre os alelos e o logaritmo do tamanho do corpo. As correlações cofenéticas obtidas foram freqüentemente maiores que 0,80 e os valores mais elevados apareceram para as distâncias genéticas de Nei e Rogers. A relação entre o coeficiente de correlação cofenética e os outros parâmetros analisados foi definida para um "espaço de restrição", formando triângulos em que altos valores de correlação cofenética são observados para altos valores nos parâmetros, mas pequenos valores nestes não necessariamente correspondem a correlações cofenéticas elevadas. Isto permite concluir que o UPGMA é mais bem utilizado para descrever as distâncias genéticas baseadas em matrizes grandes (tanto em termos de números elevados de populações quanto alelos), quando dimensionalmente o sistema é pequeno (matrizes com elevados primeiros autovalores) ou quando as populações locais são separadas por grandes distâncias geográficas.
url http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-47571998000200010
work_keys_str_mv AT flaviamelorodrigues hierarchicalstructureofgeneticdistanceseffectsofmatrixsizespatialdistributionandcorrelationstructureamonggenefrequencies
AT josealexandrefelizoladinizfilho hierarchicalstructureofgeneticdistanceseffectsofmatrixsizespatialdistributionandcorrelationstructureamonggenefrequencies
_version_ 1724587817066037248
spelling doaj-8d7ea289cbc041a4a277605fe9a2a06b2020-11-25T03:27:39ZengSociedade Brasileira de GenéticaGenetics and Molecular Biology1415-47571678-46851998-06-0121223310.1590/S1415-47571998000200010Hierarchical structure of genetic distances: Effects of matrix size, spatial distribution and correlation structure among gene frequenciesFlávia Melo RodriguesJosé Alexandre Felizola Diniz-FilhoGeographic structure of genetic distances among local populations within species, based on allozyme data, has usually been evaluated by estimating genetic distances clustered with hierarchical algorithms, such as the unweighted pair-group method by arithmetic averages (UPGMA). The distortion produced in the clustering process is estimated by the cophenetic correlation coefficient. This hierarchical approach, however, can fail to produce an accurate representation of genetic distances among populations in a low dimensional space, especially when continuous (clinal) or reticulate patterns of variation exist. In the present study, we analyzed 50 genetic distance matrices from the literature, for animal taxa ranging from Platyhelminthes to Mammalia, in order to determine in which situations the UPGMA is useful to understand patterns of genetic variation among populations. The cophenetic correlation coefficients, derived from UPGMA based on three types of genetic distance coefficients, were correlated with other parameters of each matrix, including number of populations, loci, alleles, maximum geographic distance among populations, relative magnitude of the first eigenvalue of covariance matrix among alleles and logarithm of body size. Most cophenetic correlations were higher than 0.80, and the highest values appeared for Nei's and Rogers' genetic distances. The relationship between cophenetic correlation coefficients and the other parameters analyzed was defined by an "envelope space", forming triangles in which higher values of cophenetic correlations are found for higher values in the parameters, though low values do not necessarily correspond to high cophenetic correlations. We concluded that UPGMA is useful to describe genetic distances based on large distance matrices (both in terms of elevated number of populations or alleles), when dimensionality of the system is low (matrices with large first eigenvalues) or when local populations are separated by large geographical distances.<br>A estrutura geográfica das distâncias genéticas entre populações locais dentro das espécies, baseada em dados de aloenzimas, tem sido usualmente avaliada com algorítimos hierárquicos, como o método não ponderado por médias aritiméticas (UPGMA). A distorção produzida no processo de agrupamento é estimada por um coeficiente de correlação cofenética. Estas abordagens hierárquicas, entretanto, podem falhar em produzir uma representação acurada das distâncias genéticas entre populações em espaços de pequena dimensão, especialmente quando padrões contínuos (clinais) ou reticulares de variação existem. Neste trabalho, nós analisamos 50 matrizes de distância genética entre populações animais da literatura, variando de platelmintos a mamíferos, para avaliar em que situações o UPGMA é útil para entender os padrões de variação genética entre as populações. Os coeficientes de correlação cofenética, derivados do UPGMA baseados em três tipos de coeficientes de distância genética, foram correlacionados com outros parâmetros de cada matriz, incluindo número de populações, loci, alelos, distância máxima geográfica entre as populações, magnitude relativa do primeiro autovalor da matriz de covariância entre os alelos e o logaritmo do tamanho do corpo. As correlações cofenéticas obtidas foram freqüentemente maiores que 0,80 e os valores mais elevados apareceram para as distâncias genéticas de Nei e Rogers. A relação entre o coeficiente de correlação cofenética e os outros parâmetros analisados foi definida para um "espaço de restrição", formando triângulos em que altos valores de correlação cofenética são observados para altos valores nos parâmetros, mas pequenos valores nestes não necessariamente correspondem a correlações cofenéticas elevadas. Isto permite concluir que o UPGMA é mais bem utilizado para descrever as distâncias genéticas baseadas em matrizes grandes (tanto em termos de números elevados de populações quanto alelos), quando dimensionalmente o sistema é pequeno (matrizes com elevados primeiros autovalores) ou quando as populações locais são separadas por grandes distâncias geográficas.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-47571998000200010