Publicado

2019-10-01

Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm

Datos faltantes en análisis de correspondencias múltiples bajo el principio de datos disponibles del algoritmo NIPALS

DOI:

https://doi.org/10.15446/dyna.v86n211.80261

Palabras clave:

multiple correspondence analysis, missing data, NIPALS, available data principle (en)
análisis de correspondencias múltiples, datos faltantes, NIPALS, principio de datos disponibles (es)

Autores/as

Multiple correspondence analysis (MCA) in the presence of missing data is usually performed by removing the records that have missing or not available (NA) data; sometimes, an entire row or column of a data matrix is removed, which is not ideal because relevant information on an individual or variable of the study is lost. In some cases, it is assumed that the missing data are a category of the qualitative variable, resulting in a greater variance dispersion in the new axes. Possible solutions to this problem can be the imputation of the missing data or using an algorithm suited to the presence of this type of data. This work is focused on performing the MCA method in the presence of missing data, without using imputation techniques, by using the available data principle of the nonlinear estimation by iterative partial least squares (NIPALS) algorithm [25].
El Análisis de Correspondencias Múltiples (ACM) en presencia de datos faltantes usualmente se trabaja eliminando los registros en donde exista el dato faltante o no disponible (NA), algunas veces se elimina toda la fila o toda la columna de la matriz de datos, lo cual no es adecuado ya que al realizarlo se pierde información relevante sobre algún individuo o variable del estudio. En algunos otros c asos, se asume que el dato faltante es una categoría de la variable cualitativa, trayendo como consecuencia mayor dispersión de varianza en los nuevos ejes. Una solución para esta situación puede ser la imputación del dato faltante o utilizar un algoritmo que permita trabajar con la presencia de éste tipo de datos. Este trabajo se centra en realizar el método ACM en presencia de datos faltantes sin acudir a técnicas de imputación, para esto se utiliza el principio de datos disponibles del algoritmo NIPALS [25].

Referencias

Aluja, T. & González, V. M. (2014), `Gnm-nipals: general nonmetric-nonlinear estimation by iterative partial least squares', Revista de Matemática Teoría y Aplicaciones 21(1), 85 106.

Aluja, T. & Morineau (1999), Aprender de los datos: el análisis de los componentes principales: una aproximación desde el data mining, Barcelona :EUB

Audigier, V., Husson, F. & Josse, J. (2015), `Mimca: Multiple imputation for categorical variables with multiple correspondence analysis', arXiv preprint arXiv:1505.08116

Brefort, A.(1982), ’Letude des races canines a partir de leurs caracteristiques qualitatives’, HEC - Jouy en Josas

Burt, C. (1950), `The factorial analysis of qualitative data', ritish Journal of Statistical Psychology 3(3), 166 185

Dray, S., Dufour, A.-B. et al. (2007), `The ade4 package: implementing the duality diagram for ecologists', Journal of statistical software 22(4), 1 20

Escofier, B. (1981), Traitement des questionnaires avec non réponse, analyse des correspondances avec marge modifiée et analyse multicanonique avec contrainte, PhD thesis, INRIA.

Guttman, L. (1941), `The quantification of a class of attributes: A theory and method of scale construction', The prediction of personal adjustment pp. 319 348.

Hayashi, C. (1956), Theory and examples of quantification.(ii), in `Proc. of the Institute of Statist. Math', Vol. 4, pp. 19 30.

Husson, F., Josse, J., Husson, M. F. & FactoMineR, D. (2013), `Package "miss- mda"', methods 153(2), 79 99.

Josse, J., Chavent, M., Liquet, B. & Husson, F. (2012), `Handling missing values with regularized iterative multiple correspondence analysis', Journal of classification 29(1), 91 116.

Josse, J. & Husson, F. (2012), `Handling missing values in exploratory multivariate data analysis methods', Journal de la Société Française de Statistique 153(2), 79 99.

Lebart, L., Morineau, A. & Piron, M. (1997), Statistique exploratoire multidimensionnelle, Dunod Paris.

Meulman, J. (1982), Homogeneity analysis of incomplete data, Vol. 1, DSWO Press.

Ochoa-Muñoz, A. F., & González-Rojas, V. M. (2018). Análisis de correspondencias múltiples en presencia de datos faltantes: El principio de datos disponibles del algoritmo NIPALS (ACMpdd) (Master’s Thesis). Cali, Colombia: Universidad del Valle.

Pardo, C. E. & Cabar as, G. (2001), `Métodos estadísticos multivariados en investigación social'.

Pardo, C. E., & Del Campo, P. C. (2007). Combinación de métodos factoriales y de análisis de conglomerados en R: el paquete FactoClass. Revista Colombiana de Estadística, 30(2), 231-245.

Russolillo, G. (2009), Partial Least Squares methods for non-metric data, PhD thesis, Università degli Studi di Napoli Federico II.

Sanchez, G. (2013), PLS path modeling with R.

Tenenhaus, M. (1998), La régression PLS, théorie et pratique, Editions Technip.

Trejos, J., Castillo, W., & González, J. (2014). Análisis Multivariado de Datos. Métodos y Aplicaciones.

Trinchera, L., Squillacciotti, S. & Esposito Vinzi, V. (2006), `Pls typological path modeling: a model-based approach to classification', Proceedings of KNEMO p. 87.

Van der Heijden, P. G. M., & Escofier, B. (2003). Multiple correspondence analysis with missing data. In Recherches sur l’Analyse des Correspondances, 152-170.

Vitelleschi, M. & Quaglino, B. (2009), Modelos pca a partir de conjuntos de datos con información faltante, Master's thesis.

Wold, H. et al. (1966), `Estimation of principal components and related models by iterative least squares', Multivariate Analysis 1, 391 420

Cómo citar

IEEE

[1]
A. F. Ochoa Muñoz, V. M. Gonzalez Rojas, y C. E. Pardo Turriago, «Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm», DYNA, vol. 86, n.º 211, pp. 249–257, oct. 2019.

ACM

[1]
Ochoa Muñoz, A.F., Gonzalez Rojas, V.M. y Pardo Turriago, C.E. 2019. Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm. DYNA. 86, 211 (oct. 2019), 249–257. DOI:https://doi.org/10.15446/dyna.v86n211.80261.

ACS

(1)
Ochoa Muñoz, A. F.; Gonzalez Rojas, V. M.; Pardo Turriago, C. E. Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm. DYNA 2019, 86, 249-257.

APA

Ochoa Muñoz, A. F., Gonzalez Rojas, V. M. & Pardo Turriago, C. E. (2019). Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm. DYNA, 86(211), 249–257. https://doi.org/10.15446/dyna.v86n211.80261

ABNT

OCHOA MUÑOZ, A. F.; GONZALEZ ROJAS, V. M.; PARDO TURRIAGO, C. E. Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm. DYNA, [S. l.], v. 86, n. 211, p. 249–257, 2019. DOI: 10.15446/dyna.v86n211.80261. Disponível em: https://revistas.unal.edu.co/index.php/dyna/article/view/80261. Acesso em: 8 mar. 2026.

Chicago

Ochoa Muñoz, Andrés Felipe, Víctor Manuel Gonzalez Rojas, y Campo Elías Pardo Turriago. 2019. «Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm». DYNA 86 (211):249-57. https://doi.org/10.15446/dyna.v86n211.80261.

Harvard

Ochoa Muñoz, A. F., Gonzalez Rojas, V. M. y Pardo Turriago, C. E. (2019) «Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm», DYNA, 86(211), pp. 249–257. doi: 10.15446/dyna.v86n211.80261.

MLA

Ochoa Muñoz, A. F., V. M. Gonzalez Rojas, y C. E. Pardo Turriago. «Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm». DYNA, vol. 86, n.º 211, octubre de 2019, pp. 249-57, doi:10.15446/dyna.v86n211.80261.

Turabian

Ochoa Muñoz, Andrés Felipe, Víctor Manuel Gonzalez Rojas, y Campo Elías Pardo Turriago. «Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm». DYNA 86, no. 211 (octubre 1, 2019): 249–257. Accedido marzo 8, 2026. https://revistas.unal.edu.co/index.php/dyna/article/view/80261.

Vancouver

1.
Ochoa Muñoz AF, Gonzalez Rojas VM, Pardo Turriago CE. Missing data in multiple correspondence analysis under the available data principle of the NIPALS algorithm. DYNA [Internet]. 1 de octubre de 2019 [citado 8 de marzo de 2026];86(211):249-57. Disponible en: https://revistas.unal.edu.co/index.php/dyna/article/view/80261

Descargar cita

CrossRef Cited-by

CrossRef citations8

1. Jose Fabian Rios Obando, Jerfenzon Salazar-Tabima, Alexander Romero Sánchez, Mario Martínez Salgado. (2025). Vocación turística empresarial en municipios del centro del Valle, Colombia. Revista Venezolana de Gerencia, 30(Especial 14), p.1632. https://doi.org/10.52080/rvgluz.30.especial14.48.

2. Minjie Shen, Yi-Tan Chang, Chiung-Ting Wu, Sarah J. Parker, Georgia Saylor, Yizhi Wang, Guoqiang Yu, Jennifer E. Van Eyk, Robert Clarke, David M. Herrington, Yue Wang. (2022). Comparative assessment and novel strategy on methods for imputing proteomics data. Scientific Reports, 12(1) https://doi.org/10.1038/s41598-022-04938-0.

3. A. Khokh. (2024). Advances in Ecology and Environmental Engineering. Springer Proceedings in Earth and Environmental Sciences. , p.161. https://doi.org/10.1007/978-3-031-64423-8_14.

4. Andrés F. Ochoa-Muñoz, Javier E. Contreras-Reyes, Jaime Mosquera, Rodrigo Salas. (2025). Partial Least Squares models under skew-normal and skew-t settings with applications. Chemometrics and Intelligent Laboratory Systems, 264, p.105438. https://doi.org/10.1016/j.chemolab.2025.105438.

5. Dongping Du, Saurabh Bhardwaj, Yingzhou Lu, Yizhi Wang, Sarah J. Parker, Zhen Zhang, Jennifer E. Van Eyk, Guoqiang Yu, Robert Clarke, David M. Herrington, Yue Wang. (2024). Embracing the informative missingness and silent gene in analyzing biologically diverse samples. Scientific Reports, 14(1) https://doi.org/10.1038/s41598-024-78076-0.

6. A. Khokh. (2024). Near-infrared spectroscopy used in forensic wood research. Science and Innovations, (11), p.65. https://doi.org/10.29235/1818-9857-2024-11-65-70.

7. Weijia Kong, Harvard Wai Hann Hui, Hui Peng, Wilson Wen Bin Goh. (2022). Dealing with missing values in proteomics data. PROTEOMICS, 22(23-24) https://doi.org/10.1002/pmic.202200092.

8. Andrés F. Ochoa-Muñoz, Javier E. Contreras-Reyes. (2023). Multiple Factor Analysis Based on NIPALS Algorithm to Solve Missing Data Problems. Algorithms, 16(10), p.457. https://doi.org/10.3390/a16100457.

Dimensions

PlumX

Visitas a la página del resumen del artículo

1024

Descargas

Los datos de descargas todavía no están disponibles.