Validación de agrupamientos para representar estructura genética poblacional

Contenido principal del artículo

María Eugenia Videla
Cecilia Bruno

Resumen

Desde los comienzos de la estadística, ha existido la necesidad de identificar el número subyacente de grupos existentes en una población, para dar respuestas a genetistas con respecto a la estructura que se forma por similitudes entre individuos de una o más poblaciones. Se han propuesto numerosos índices para obtener el número óptimo de grupos,que conforman la estructura genética poblacional (EGP).Sin embargo, no hay consenso sobre cuáles son los de mejor desempeño. Para determinar el número óptimo de grupos que definen la EGP, se realizó un estudio de simulación de nueve escenarios de EGP con tres números de subpoblaciones (k = 2, 5 y 10) y tres niveles de diferenciación genética, recreando varios genomas de maíz, para evaluar cuatro índices de validación internos: CH, Connectivity, Dunn y Silhouette. En este estudio, se encontró que,los índices de Dunn y Silhouette tienen el mejor desempeño para identificar el verdadero número de grupos subyacentes, mientras que Conectividad, el peor. Este estudio ofrece una alternativa sólida para revelar la EGP existente, facilitando así los estudios de población y las estrategias de mejoramiento de cultivos.Además, los presentes hallazgos pueden tener implicaciones para otras especies de cultivos.

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Cómo citar
Videla, M. E., & Bruno, C. (2022). Validación de agrupamientos para representar estructura genética poblacional. AgriScientia, 39(1), 59–69. https://doi.org/10.31047/1668.298x.v39.n1.34015
Sección
Artículos

Citas

Balzarini, M., Teich, I., Bruno, C. y Peña, A. (2011). Making genetic biodiversity measurable: A review of statistical multivariate methods to study variability at gene level. Revista de la Facultad de Ciencias Agrarias, 43(1), 261-275. http://www.scielo.org.ar/pdf/refca/v43n1/v43n1a20.pdf

Brock, G., Pihur, V., Datta, S. y Datta, S. (2008). clValid: An R Package for Cluster Validation. Journal of Statistical Software, 25(4), 1-22. https://doi.org/10.18637/jss.v025.i04

Bruno, C., Balzarini, M. y Di Rienzo, J. (2003). Comparación de medidas de distancias entre perfiles RAPD. Journal of Basic & Applied Genetics, 15(1), 29-32. https://www.researchgate.net/publication/283569265

Caliński, T., y Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in Statistics-theory and Methods, 3(1), 1-27. https://doi.org/10.1080/03610927408827101

Charrad, M., Ghazzali, N., Boiteau, V. y Niknafs, A. (2014). NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set. Journal of Statistical Software, 61(6), 1-36. https://doi.org/10.18637/jss.v061.i06

Córdoba, M., Paccioretti, P. A., Giannini Kurina, F., Bruno, C. I. y Balzarini, M. G. (2019). Guía para el análisis de datos espaciales en agricultura. Serie Estadística Aplicada. http://hdl.handle.net/11336/128391

Dudoit, S. y Fridlyand, J. (2002). A prediction-based resampling method for estimating the number of clusters in a dataset. Genome biology, 3(7), 1-21. https://doi.org/10.1186/gb-2002-3-7-research0036

Dunn, J. C. (1974). Well-separated clusters and optimal fuzzy partitions. Journal of cybernetics, 4(1), 95-104. https://doi.org/10.1080/01969727408546059

Eick, C. F., Vaezian, B., Jiang, D. y Wang, J. (2006). Discovery of Interesting Regions in Spatial Data Sets Using Supervised Clustering. En S. M. Fürnkranz J., Scheffer, T. (Ed.), Knowledge Discovery in Databases: PKDD 2006. PKDD 2006. Lecture Notes in Computer Science(127-138). Springer, Berlin, Heidelberg. https://doi.org/10.1007/11871637_16

Esfandyari, H. y Sørensen, A. C. (2019). xbreed: An R package for genomic simulation of purebred and crossbred populations. https://cran.microsoft.com/snapshot/2020-04-05/web/packages/xbreed/vignettes/xbreedvignette.pdf

Evanno, G., Regnaut, S. y Goudet, J. (2005). Detecting the number of clusters of individuals using the software STRUCTURE: A simulation study. Molecular Ecology, 14(8), 2611-2620. https://doi.org/10.1111/j.1365-294X.2005.02553.x

Excoffier, L., Smouse, P. E. y Quattro, J. M. (1992). Analysis of molecular variance inferred from metric distances among DNA haplotypes: Application to human mitochondrial DNA restriction data. Genetics, 131(2), 479-491. https://doi.org/10.3354/meps198283

Frichot, E. y François, O. (2015). LEA: An R package for landscape and ecological association studies. Methods in Ecology and Evolution, 6(8), 925-929. https://doi.org/10.1111/2041-210X.12382

Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 27(4), 857-871.https://doi.org/10.2307/2528823

Halkidi, M. y Iordanis, K. (2011). Online clustering of distributed streaming data using belief propagation techniques. En 2011 IEEE 12th International Conference on Mobile Data Management, 216-225.Lulea, Sweden. https://doi.org/10.1109/MDM.2011.63

Halkidi, M., Vazirgiannis, M. y Batistakis, Y. (2000). Quality scheme assessment in the clustering process. En D. A. Zighed, J. Komorowskiy, J. Żytkow (Eds.), Principles of Data Mining and Knowledge Discovery. PKDD 2000. Lecture Notes in Computer Science,1910(265-276). https://doi.org/10.1007/3-540-45372-5_26

Handl, J. y Knowles, J. (2005). Exploiting the Trade-off — The Benefits of Multiple Objectives in Data Clustering. EnC. A. CoelloCoello, A. H. Aguirre y E. Zitzler (Eds.), Evolutionary Multi-Criterion Optimization. EMO 2005. Lecture Notes in Computer Science, 3410(547-560). Springer. https://doi.org/10.1007/978-3-540-31880-4_38

Hartigan, J. A. (1975). Clustering Algorithms. John Wiley & Sons, Inc.

Jombart, T., Devillard, S. y Balloux, F. (2010). Discriminant analysis of principal components: a new method for the analysis of genetically structured populations. BMC genetics, 11(1), 1–15. https://doi.org/10.1186/1471-2156-11-94

Kaufman, L. y Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, Inc.

Latch, E. K., Dharmarajan, G., Glaubitz, J. C. y Rhodes, O. E. (2006). Relative performance of Bayesian clustering software for inferring population substructure and individual assignment at low levels of population differentiation. Conservation Genetics, 7(2), 295-302. https://doi.org/10.1007/s10592-005-9098-1

Lawson, D. J., vanDorp, L. y Falush, D. (2018). A tutorial on how not to over-interpret STRUCTURE and ADMIXTURE bar plots. Nature Communications, 9(1), 1-11. https://doi.org/10.1038/s41467-018-05257-7

Lee, E. A. y Tracy, W. F. (2009). Modern maize breeding. Handbook of Maize, 141-160. https://doi.org/10.1007/978-0-387-77863-1_7

Odong, T. L., van Heerwaarden, J., Jansen, J., van Hintum, T. J. L. y Van Eeuwijk, F. A. (2011). Determination of genetic structure of germplasm collections: Are traditional hierarchical clustering methods appropriate for molecular marker data? Theoretical and Applied Genetics, 123(2), 195-205. https://doi.org/10.1007/s00122-011-1576-x

Peña-Malavera, A., Bruno, C., Fernandez, E. y Balzarini, M. (2014). Comparison of algorithms to infer genetic population structure from unlinked molecular markers. Statistical Applications in Genetics and Molecular Biology, 13(4), 391-402. https://doi.org/10.1515/sagmb-2013-0006

Pritchard, J., Stephens, M. y Donnelly, P. (2000). Inference of population structure using multil ocusgenotype data. Genetics, 155(2), 945-959. https://doi.org/10.1093/genetics/155.2.945

Rezaee, M. R., Lelieveldt, B. P. y Reiber, J. H. C. (1998). A new cluster validity index for the fuzzy c-mean. Pattern Recognition Letters, 19(3-4), 237-246. https://doi.org/10.1016/S0167-8655(97)00168-2

Salvador, S. y Chan, P. (2004). Determining the number of clusters/segments in hierarchical clustering/segmentation algorithms. 16th IEEE international conference on tools with artificial intelligence. IEEE, 576-584. Copenhagen, Denmark. https://doi.org/10.1109/ICTAI.2004.50

Tibshirani, R., Walther, G. y Hastie, T. (2001). Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2), 411-423. https://doi.org/10.1111/1467-9868.00293

Videla, M. E. (2021). Evaluación de algoritmos de agrupamientos para inferir estructura genética poblacional en datos genómicos.Tesis de maestría publicada. Universidad Nacional de Córdoba, Córdoba, Argentina. http://hdl.handle.net/11086/20184