Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm

Andrés Felipe Ochoa Muñoz; Víctor Manuel Gonzalez Rojas; Campo Elías Pardo Turriago

Publicado

2019-10-01

Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm

Datos faltantes en análisis de correspondencias múltiples bajo el principio de datos disponibles del algoritmo NIPALS

Palabras clave:

multiple correspondence analysis, missing data, NIPALS, available data principle (en)
análisis de correspondencias múltiples, datos faltantes, NIPALS, principio de datos disponibles (es)

Descargas

Autores/as

Andrés Felipe Ochoa Muñoz Universidad del Valle https://orcid.org/0000-0002-0003-1347
Víctor Manuel Gonzalez Rojas Universidad del Valle https://orcid.org/0000-0002-6526-7879
Campo Elías Pardo Turriago Universidad Nacional de Colombia - Sede Bogotá https://orcid.org/0000-0001-6464-1905

Resumen (en)
Resumen (es)

Multiple correspondence analysis (MCA) in the presence of missing data is usually performed by removing the records that have missing or not available (NA) data; sometimes, an entire row or column of a data matrix is removed, which is not ideal because relevant information on an individual or variable of the study is lost. In some cases, it is assumed that the missing data are a category of the qualitative variable, resulting in a greater variance dispersion in the new axes. Possible solutions to this problem can be the imputation of the missing data or using an algorithm suited to the presence of this type of data. This work is focused on performing the MCA method in the presence of missing data, without using imputation techniques, by using the available data principle of the nonlinear estimation by iterative partial least squares (NIPALS) algorithm [25].

El Análisis de Correspondencias Múltiples (ACM) en presencia de datos faltantes usualmente se trabaja eliminando los registros en donde exista el dato faltante o no disponible (NA), algunas veces se elimina toda la fila o toda la columna de la matriz de datos, lo cual no es adecuado ya que al realizarlo se pierde información relevante sobre algún individuo o variable del estudio. En algunos otros c asos, se asume que el dato faltante es una categoría de la variable cualitativa, trayendo como consecuencia mayor dispersión de varianza en los nuevos ejes. Una solución para esta situación puede ser la imputación del dato faltante o utilizar un algoritmo que permita trabajar con la presencia de éste tipo de datos. Este trabajo se centra en realizar el método ACM en presencia de datos faltantes sin acudir a técnicas de imputación, para esto se utiliza el principio de datos disponibles del algoritmo NIPALS [25].

Citas

Aluja, T. & González, V. M. (2014), `Gnm-nipals: general nonmetric-nonlinear estimation by iterative partial least squares', Revista de Matemática Teoría y Aplicaciones 21(1), 85 106.

Aluja, T. & Morineau (1999), Aprender de los datos: el análisis de los componentes principales: una aproximación desde el data mining, Barcelona :EUB

Audigier, V., Husson, F. & Josse, J. (2015), `Mimca: Multiple imputation for categorical variables with multiple correspondence analysis', arXiv preprint arXiv:1505.08116

Brefort, A.(1982), ’Letude des races canines a partir de leurs caracteristiques qualitatives’, HEC - Jouy en Josas

Burt, C. (1950), `The factorial analysis of qualitative data', ritish Journal of Statistical Psychology 3(3), 166 185

Dray, S., Dufour, A.-B. et al. (2007), `The ade4 package: implementing the duality diagram for ecologists', Journal of statistical software 22(4), 1 20

Escofier, B. (1981), Traitement des questionnaires avec non réponse, analyse des correspondances avec marge modifiée et analyse multicanonique avec contrainte, PhD thesis, INRIA.

Guttman, L. (1941), `The quantification of a class of attributes: A theory and method of scale construction', The prediction of personal adjustment pp. 319 348.

Hayashi, C. (1956), Theory and examples of quantification.(ii), in `Proc. of the Institute of Statist. Math', Vol. 4, pp. 19 30.

Husson, F., Josse, J., Husson, M. F. & FactoMineR, D. (2013), `Package "miss- mda"', methods 153(2), 79 99.

Josse, J., Chavent, M., Liquet, B. & Husson, F. (2012), `Handling missing values with regularized iterative multiple correspondence analysis', Journal of classification 29(1), 91 116.

Josse, J. & Husson, F. (2012), `Handling missing values in exploratory multivariate data analysis methods', Journal de la Société Française de Statistique 153(2), 79 99.

Lebart, L., Morineau, A. & Piron, M. (1997), Statistique exploratoire multidimensionnelle, Dunod Paris.

Meulman, J. (1982), Homogeneity analysis of incomplete data, Vol. 1, DSWO Press.

Ochoa-Muñoz, A. F., & González-Rojas, V. M. (2018). Análisis de correspondencias múltiples en presencia de datos faltantes: El principio de datos disponibles del algoritmo NIPALS (ACMpdd) (Master’s Thesis). Cali, Colombia: Universidad del Valle.

Pardo, C. E. & Cabar as, G. (2001), `Métodos estadísticos multivariados en investigación social'.

Pardo, C. E., & Del Campo, P. C. (2007). Combinación de métodos factoriales y de análisis de conglomerados en R: el paquete FactoClass. Revista Colombiana de Estadística, 30(2), 231-245.

Russolillo, G. (2009), Partial Least Squares methods for non-metric data, PhD thesis, Università degli Studi di Napoli Federico II.

Sanchez, G. (2013), PLS path modeling with R.

Tenenhaus, M. (1998), La régression PLS, théorie et pratique, Editions Technip.

Trejos, J., Castillo, W., & González, J. (2014). Análisis Multivariado de Datos. Métodos y Aplicaciones.

Trinchera, L., Squillacciotti, S. & Esposito Vinzi, V. (2006), `Pls typological path modeling: a model-based approach to classification', Proceedings of KNEMO p. 87.

Van der Heijden, P. G. M., & Escofier, B. (2003). Multiple correspondence analysis with missing data. In Recherches sur l’Analyse des Correspondances, 152-170.

Vitelleschi, M. & Quaglino, B. (2009), Modelos pca a partir de conjuntos de datos con información faltante, Master's thesis.

Wold, H. et al. (1966), `Estimation of principal components and related models by iterative least squares', Multivariate Analysis 1, 391 420

Licencia

Derechos de autor 2019 DYNA

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.

El autor o autores de un artículo aceptado para publicación en cualquiera de las revistas editadas por la facultad de Minas cederán la totalidad de los derechos patrimoniales a la Universidad Nacional de Colombia de manera gratuita, dentro de los cuáles se incluyen: el derecho a editar, publicar, reproducir y distribuir tanto en medios impresos como digitales, además de incluir en artículo en índices internacionales y/o bases de datos, de igual manera, se faculta a la editorial para utilizar las imágenes, tablas y/o cualquier material gráfico presentado en el artículo para el diseño de carátulas o posters de la misma revista.